Опубликовано 10.06.2025 17:05
Исследователи факультета вычислительной математики и кибернетики МГУ разработали библиотеку Survivors на Python для анализа временных событий. Этот инструмент помогает прогнозировать вероятность наступления различных событий, учитывая сложные зависимости в данных, и работает даже с пропущенными значениями и цензурированными наблюдениями. Об этом сообщили в пресс-службе университета.
Разработка была представлена в журнале «Moscow University Computational Mathematics and Cybernetics».
Прогнозирование времени наступления событий играет ключевую роль в медицине, промышленности, CRM-системах и социологии. Оно позволяет оценивать вероятность таких событий, как выход оборудования из строя, отток клиентов или выздоровление пациента. Особенность этой области — работа с цензурированными данными, где точное время события неизвестно. Однако традиционные методы требуют строгих допущений и сложной предварительной обработки.
Библиотека Survivors, созданная в МГУ, использует современные методы машинного обучения и устраняет многие недостатки существующих решений. Она позволяет прогнозировать вероятность события для всех моментов времени, предоставляя более детализированные результаты по сравнению с традиционными подходами.
Survivors отличается от других библиотек тем, что поддерживает работу с числовыми и категориальными переменными, а также пропущенными значениями. Это делает её удобной для анализа реальных данных. Алгоритмы деревьев решений и их ансамбли адаптированы для задач выживаемости и не требуют сложной подготовки данных.
«Наша библиотека решает задачи анализа выживаемости без предварительной обработки данных, обеспечивая высокую точность прогнозов. Мы стремились создать инструмент, который упростит работу исследователей с реальными данными», — отметил Юлий Васильев, сотрудник лаборатории технологий программирования факультета ВМК МГУ.
Survivors также учитывает случаи информативного цензурирования, когда потеря данных происходит неслучайно. Алгоритмы оптимизированы для работы с большими массивами информации, обеспечивая высокую производительность за счет параллельных вычислений.
Библиотека включает модели деревьев выживаемости и их ансамбли, что повышает точность прогнозов. В отличие от классических методов, таких как регрессия Кокса, Survivors использует усовершенствованные механизмы разбиения данных, что улучшает качество предсказаний.
Тестирование на медицинских и промышленных данных подтвердило, что Survivors превосходит существующие решения по точности и устойчивости. Библиотека проста в использовании и не требует глубоких знаний в машинном обучении.
Survivors может применяться в различных областях: от медицины до промышленности. В CRM-системах она поможет прогнозировать отток клиентов, а в промышленности — контролировать состояние оборудования.