EBES: イベントシーケンスのための簡単なベンチマーキング
EBES: Easy Benchmarking for Event Sequences
October 4, 2024
著者: Dmitry Osin, Igor Udovichenko, Viktor Moskvoretskii, Egor Shvetsov, Evgeny Burnaev
cs.AI
要旨
イベントシーケンスは、不規則なサンプリング間隔とカテゴリカルおよび数値の特徴の混在に特徴付けられ、医療、金融、ユーザーインタラクションログなどのさまざまな実世界の領域で一般的なデータ構造です。時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準化されたベンチマークが存在しません。これにより、異なる論文間での結果の比較が複雑化し、この分野の進歩が誤解される可能性があります。私たちは、回帰および分類問題に焦点を当てた、シーケンスレベルのターゲットを持つ標準化された評価シナリオとプロトコルを備えた包括的なベンチマークツールであるEBESを紹介します。当ライブラリは、統一されたインターフェースを通じてベンチマーク、データセットの追加、および手法の統合を簡素化します。新しい合成データセットを含み、最大の公開銀行データセットを含む事前処理済みの実世界データセットを提供します。私たちの結果は、データセットの詳細な分析を提供し、いくつかのデータセットがモデルの比較には適していないことを特定します。時間的および順序的な要素のモデリングの重要性、およびモデルの堅牢性とスケーリング特性を調査します。これらの知見は、将来の研究の可能性の方向性を示しています。私たちのベンチマークの目的は、再現可能な研究を促進し、進歩を加速し、実世界への影響を増大させることです。
English
Event sequences, characterized by irregular sampling intervals and a mix of
categorical and numerical features, are common data structures in various
real-world domains such as healthcare, finance, and user interaction logs.
Despite advances in temporal data modeling techniques, there is no standardized
benchmarks for evaluating their performance on event sequences. This
complicates result comparison across different papers due to varying evaluation
protocols, potentially misleading progress in this field. We introduce EBES, a
comprehensive benchmarking tool with standardized evaluation scenarios and
protocols, focusing on regression and classification problems with
sequence-level targets. Our library simplifies benchmarking, dataset addition,
and method integration through a unified interface. It includes a novel
synthetic dataset and provides preprocessed real-world datasets, including the
largest publicly available banking dataset. Our results provide an in-depth
analysis of datasets, identifying some as unsuitable for model comparison. We
investigate the importance of modeling temporal and sequential components, as
well as the robustness and scaling properties of the models. These findings
highlight potential directions for future research. Our benchmark aim is to
facilitate reproducible research, expediting progress and increasing real-world
impacts.Summary
AI-Generated Summary