TSRBench: Un Benchmark Completo di Ragionamento su Serie Temporali Multi-task e Multi-modale per Modelli Generalisti

Abstract

I dati delle serie temporali sono onnipresenti negli scenari del mondo reale e cruciali per applicazioni critiche che spaziano dalla gestione energetica al controllo del traffico. Di conseguenza, la capacità di ragionare sulle serie temporali è un'abilità fondamentale per i modelli generalisti per risolvere problemi pratici. Tuttavia, questa dimensione è notevolmente assente dai benchmark esistenti per i modelli generalisti. Per colmare questa lacuna, introduciamo TSRBench, un benchmark multimodale completo progettato per testare a fondo l'intero spettro delle capacità di ragionamento sulle serie temporali. TSRBench presenta: i) un insieme diversificato di 4125 problemi provenienti da 14 domini, categorizzati in 4 dimensioni principali: Percezione, Ragionamento, Previsione e Presa di Decisione. ii) 15 task delle 4 dimensioni che valutano capacità di ragionamento essenziali (ad esempio, il ragionamento numerico). Attraverso esperimenti estesi, abbiamo valutato oltre 30 tra i principali LLM proprietari e open-source, VLM e TSLLM all'interno di TSRBench. I nostri risultati rivelano che: i) le leggi di scala valgono per la percezione e il ragionamento, ma si interrompono per la previsione; ii) un forte ragionamento non garantisce previsioni accurate basate sul contesto, indicando un disaccoppiamento tra comprensione semantica e previsione numerica; e iii) nonostante la natura complementare delle rappresentazioni testuali e visive delle serie temporali come input, gli attuali modelli multimodali non riescono a fondere efficacemente tali informazioni per ottenere guadagni prestazionali reciproci. TSRBench fornisce una piattaforma di valutazione standardizzata che non solo evidenzia le sfide esistenti, ma offre anche spunti preziosi per far progredire i modelli generalisti. Il nostro codice e dataset sono disponibili su https://tsrbench.github.io/.

English

Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.

TSRBench: Un Benchmark Completo di Ragionamento su Serie Temporali Multi-task e Multi-modale per Modelli Generalisti

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

Abstract

Support