EBES: Evaluación Sencilla para Secuencias de Eventos
EBES: Easy Benchmarking for Event Sequences
October 4, 2024
Autores: Dmitry Osin, Igor Udovichenko, Viktor Moskvoretskii, Egor Shvetsov, Evgeny Burnaev
cs.AI
Resumen
Las secuencias de eventos, caracterizadas por intervalos de muestreo irregulares y una combinación de características categóricas y numéricas, son estructuras de datos comunes en diversos dominios del mundo real como la salud, las finanzas y los registros de interacción de usuarios. A pesar de los avances en técnicas de modelado de datos temporales, no existen benchmarks estandarizados para evaluar su rendimiento en secuencias de eventos. Esto complica la comparación de resultados entre diferentes documentos debido a protocolos de evaluación variables, lo que potencialmente puede llevar a interpretaciones erróneas del progreso en este campo. Presentamos EBES, una herramienta integral de benchmarking con escenarios y protocolos de evaluación estandarizados, centrándose en problemas de regresión y clasificación con objetivos a nivel de secuencia. Nuestra biblioteca simplifica el benchmarking, la adición de conjuntos de datos y la integración de métodos a través de una interfaz unificada. Incluye un conjunto de datos sintéticos novedoso y proporciona conjuntos de datos del mundo real preprocesados, incluido el conjunto de datos bancarios más grande disponible públicamente. Nuestros resultados ofrecen un análisis detallado de los conjuntos de datos, identificando algunos como inadecuados para la comparación de modelos. Investigamos la importancia de modelar componentes temporales y secuenciales, así como las propiedades de robustez y escalabilidad de los modelos. Estos hallazgos resaltan posibles direcciones para futuras investigaciones. Nuestro objetivo con el benchmark es facilitar la investigación reproducible, acelerar el progreso y aumentar los impactos en el mundo real.
English
Event sequences, characterized by irregular sampling intervals and a mix of
categorical and numerical features, are common data structures in various
real-world domains such as healthcare, finance, and user interaction logs.
Despite advances in temporal data modeling techniques, there is no standardized
benchmarks for evaluating their performance on event sequences. This
complicates result comparison across different papers due to varying evaluation
protocols, potentially misleading progress in this field. We introduce EBES, a
comprehensive benchmarking tool with standardized evaluation scenarios and
protocols, focusing on regression and classification problems with
sequence-level targets. Our library simplifies benchmarking, dataset addition,
and method integration through a unified interface. It includes a novel
synthetic dataset and provides preprocessed real-world datasets, including the
largest publicly available banking dataset. Our results provide an in-depth
analysis of datasets, identifying some as unsuitable for model comparison. We
investigate the importance of modeling temporal and sequential components, as
well as the robustness and scaling properties of the models. These findings
highlight potential directions for future research. Our benchmark aim is to
facilitate reproducible research, expediting progress and increasing real-world
impacts.Summary
AI-Generated Summary