ChatPaper.aiChatPaper

EBES: Простое тестирование производительности для последовательностей событий

EBES: Easy Benchmarking for Event Sequences

October 4, 2024
Авторы: Dmitry Osin, Igor Udovichenko, Viktor Moskvoretskii, Egor Shvetsov, Evgeny Burnaev
cs.AI

Аннотация

Последовательности событий, характеризующиеся нерегулярными интервалами выборки и смесью категориальных и числовых признаков, являются распространенными структурами данных в различных областях реального мира, таких как здравоохранение, финансы и журналы взаимодействия пользователей. Несмотря на прогресс в методах моделирования временных данных, не существует стандартизированных бенчмарков для оценки их производительности на последовательностях событий. Это затрудняет сравнение результатов между различными статьями из-за различных протоколов оценки, что может ввести в заблуждение относительно прогресса в этой области. Мы представляем EBES, комплексный инструмент бенчмаркинга с стандартизированными сценариями и протоколами оценки, сосредоточенный на проблемах регрессии и классификации с целями на уровне последовательности. Наша библиотека упрощает бенчмаркинг, добавление наборов данных и интеграцию методов через унифицированный интерфейс. Она включает новый синтетический набор данных и предоставляет предварительно обработанные наборы данных из реального мира, включая самый крупный общедоступный банковский набор данных. Наши результаты предоставляют глубокий анализ наборов данных, выявляя некоторые из них как непригодные для сравнения моделей. Мы исследуем важность моделирования временных и последовательных компонентов, а также устойчивость и масштабируемость моделей. Эти результаты выделяют потенциальные направления для будущих исследований. Наша цель бенчмаркинга - облегчить воспроизводимое исследование, ускорить прогресс и увеличить влияние на реальный мир.
English
Event sequences, characterized by irregular sampling intervals and a mix of categorical and numerical features, are common data structures in various real-world domains such as healthcare, finance, and user interaction logs. Despite advances in temporal data modeling techniques, there is no standardized benchmarks for evaluating their performance on event sequences. This complicates result comparison across different papers due to varying evaluation protocols, potentially misleading progress in this field. We introduce EBES, a comprehensive benchmarking tool with standardized evaluation scenarios and protocols, focusing on regression and classification problems with sequence-level targets. Our library simplifies benchmarking, dataset addition, and method integration through a unified interface. It includes a novel synthetic dataset and provides preprocessed real-world datasets, including the largest publicly available banking dataset. Our results provide an in-depth analysis of datasets, identifying some as unsuitable for model comparison. We investigate the importance of modeling temporal and sequential components, as well as the robustness and scaling properties of the models. These findings highlight potential directions for future research. Our benchmark aim is to facilitate reproducible research, expediting progress and increasing real-world impacts.
PDF72November 16, 2024