TSRBench: Een uitgebreide multi-task multi-modale benchmark voor temporele redeneervaardigheden voor generalistische modellen

Samenvatting

Tijdreeksgegevens zijn alomtegenwoordig in realistische scenario's en cruciaal voor kritieke toepassingen, variërend van energiebeheer tot verkeersregeling. Bijgevolg is het vermogen om te redeneren over tijdreeksen een fundamentele vaardigheid voor generalistische modellen om praktische problemen op te lossen. Deze dimensie is echter opvallend afwezig in bestaande benchmarks voor generalistische modellen. Om deze kloof te overbruggen, introduceren we TSRBench, een uitgebreide multimodale benchmark die ontworpen is om het volledige spectrum van tijdreeksredeneervaardigheden stresstesten te onderwerpen. TSRBench kenmerkt zich door: i) een diverse set van 4125 problemen uit 14 domeinen, ingedeeld in 4 hoofddimensies: Perceptie, Redeneren, Voorspelling en Besluitvorming. ii) 15 taken uit de 4 dimensies die essentiële redeneervaardigheden evalueren (bijv. numeriek redeneren). Via uitgebreide experimenten evalueerden we meer dan 30 toonaangevende propriëtaire en open-source LLM's, VLM's en TSLLM's binnen TSRBench. Onze bevindingen onthullen dat: i) schaalwetten gelden voor perceptie en redeneren, maar afbreken voor voorspelling; ii) sterk redeneren geen accurate contextbewuste voorspelling garandeert, wat wijst op een ontkoppeling tussen semantisch begrip en numerieke voorspelling; en iii) ondanks het complementaire karakter van tekstuele en visuele representaties van tijdreeksen als invoer, huidige multimodale modellen er niet in slagen deze effectief te fusioneren voor wederzijdse prestatieverbeteringen. TSRBench biedt een gestandaardiseerd evaluatieplatform dat niet alleen bestaande uitdagingen belicht, maar ook waardevolle inzichten biedt om generalistische modellen verder te ontwikkelen. Onze code en dataset zijn beschikbaar op https://tsrbench.github.io/.

English

Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.

TSRBench: Een uitgebreide multi-task multi-modale benchmark voor temporele redeneervaardigheden voor generalistische modellen

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

Samenvatting

Support