TSRBench : Un benchmark complet de raisonnement sur séries temporelles multimodal et multi-tâche pour les modèles généralistes
TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models
January 26, 2026
papers.authors: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou
cs.AI
papers.abstract
Les données de séries temporelles sont omniprésentes dans les scénarios réels et cruciales pour des applications critiques allant de la gestion de l'énergie au contrôle du trafic. Par conséquent, la capacité à raisonner sur les séries temporelles est une compétence fondamentale pour les modèles généralistes afin de résoudre des problèmes pratiques. Cependant, cette dimension est notablement absente des benchmarks existants pour les modèles généralistes. Pour combler cette lacune, nous présentons TSRBench, un benchmark multimodal complet conçu pour tester rigoureusement l'ensemble du spectre des capacités de raisonnement sur les séries temporelles. TSRBench se caractérise par : i) un ensemble diversifié de 4125 problèmes issus de 14 domaines, catégorisés en 4 dimensions majeures : Perception, Raisonnement, Prédiction et Prise de décision ; ii) 15 tâches réparties dans les 4 dimensions évaluant les capacités de raisonnement essentielles (par exemple, le raisonnement numérique). Par le biais d'expériences approfondies, nous avons évalué plus de 30 LLM, VLM et TSLLM propriétaires et open-source leaders au sein de TSRBench. Nos résultats révèlent que : i) les lois d'échelle s'appliquent à la perception et au raisonnement mais s'effondrent pour la prédiction ; ii) un raisonnement solide ne garantit pas une prévision précise et contextuelle, indiquant un découplage entre la compréhension sémantique et la prédiction numérique ; et iii) malgré la nature complémentaire des représentations textuelles et visuelles des séries temporelles en entrée, les modèles multimodaux actuels ne parviennent pas à les fusionner efficacement pour obtenir des gains de performance réciproques. TSRBench fournit une plateforme d'évaluation standardisée qui non seulement met en lumière les défis existants, mais offre également des insights précieux pour faire progresser les modèles généralistes. Notre code et notre jeu de données sont disponibles à l'adresse https://tsrbench.github.io/.
English
Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.