ChatPaper.aiChatPaper

TSRBench:汎用モデルのための包括的マルチタスク・マルチモーダル時系列推論ベンチマーク

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

January 26, 2026
著者: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou
cs.AI

要旨

時系列データは実世界のシナリオにおいて遍在しており、エネルギー管理から交通制御に至る重要なアプリケーションにおいて極めて重要である。そのため、時系列を推論する能力は、汎用モデルが実践的な問題を解決するための基本的なスキルである。しかし、この次元は既存の汎用モデルのベンチマークから顕著に欠落している。このギャップを埋めるため、我々は時系列推論能力の全範囲をストレステストするために設計された、包括的なマルチモーダルベンチマーク「TSRBench」を提案する。TSRBenchの特徴は以下の通りである:i) 14の分野から収集された4125の多様な問題セットを、知覚、推論、予測、意思決定の4つの主要次元に分類。ii) 4次元からなる15のタスクにより、数値推論などの本質的な推論能力を評価。大規模な実験を通じて、TSRBench内で30以上の主要なプロプライエタリ及びオープンソースのLLM、VLM、TSLLMを評価した。我々の知見は以下を明らかにしている:i) スケーリング則は知覚と推論では成立するが、予測では崩壊する。ii) 強力な推論能力が文脈を考慮した正確な予測を保証するわけではなく、意味理解と数値予測の間の分離を示唆。iii) 時系列のテキスト表現と視覚表現は入力として相補的であるにもかかわらず、現在のマルチモーダルモデルはそれらを効果的に融合させ、相互に性能向上を図ることができていない。TSRBenchは標準化された評価プラットフォームを提供し、既存の課題を浮き彫りにするだけでなく、汎用モデルの発展に向けた貴重な示唆を提供する。コードとデータセットはhttps://tsrbench.github.io/で公開されている。
English
Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.
PDF31January 28, 2026