ChatPaper.aiChatPaper

TSRBench: Eine umfassende Multi-Task-Multi-Modal-Benchmark für Zeitreihenverständnis für Generalistenmodelle

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

January 26, 2026
papers.authors: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou
cs.AI

papers.abstract

Zeitreihendaten sind in realen Szenarien allgegenwärtig und entscheidend für kritische Anwendungen, die von Energiemanagement bis hin zur Verkehrssteuerung reichen. Folglich ist die Fähigkeit, über Zeitreihen zu schlussfolgern, eine grundlegende Kompetenz für Generalist-Modelle, um praktische Probleme zu lösen. Diese Dimension fehlt jedoch bemerkenswerterweise in bestehenden Benchmarks für Generalist-Modelle. Um diese Lücke zu schließen, stellen wir TSRBench vor, einen umfassenden multimodalen Benchmark, der entwickelt wurde, um das gesamte Spektrum der Zeitreihenreasoning-Fähigkeiten Stresstests zu unterziehen. TSRBench zeichnet sich aus durch: i) einen vielfältigen Satz von 4125 Problemen aus 14 Domänen, kategorisiert in 4 Hauptdimensionen: Wahrnehmung, Logisches Schlussfolgern, Vorhersage und Entscheidungsfindung. ii) 15 Aufgaben aus den 4 Dimensionen, die wesentliche Reasoning-Fähigkeiten bewerten (z.B. numerisches Reasoning). In umfangreichen Experimenten evaluierten wir über 30 führende proprietäre und Open-Source-LLMs, VLMs und TSLLMs innerhalb von TSRBench. Unsere Ergebnisse zeigen, dass: i) Skalierungsgesetze für Wahrnehmung und logisches Schlussfolgern gelten, für Vorhersagen jedoch zusammenbrechen; ii) starkes Reasoning keine genaue kontextbewusste Prognose garantiert, was auf eine Entkopplung von semantischem Verständnis und numerischer Vorhersage hindeutet; und iii) trotz der komplementären Natur textueller und visueller Darstellungen von Zeitreihen als Eingaben, aktuelle multimodale Modelle scheitern, diese effektiv zu fusionieren, um gegenseitige Leistungssteigerungen zu erzielen. TSRBench bietet eine standardisierte Evaluierungsplattform, die nicht nur bestehende Herausforderungen aufzeigt, sondern auch wertvolle Einblicke zur Weiterentwicklung von Generalist-Modellen bietet. Unser Code und Datensatz sind verfügbar unter https://tsrbench.github.io/.
English
Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.
PDF31January 28, 2026