ChatPaper.aiChatPaper

TSRBench: 범용 모델을 위한 종합적 다중 작업 다중 모달 시계열 추론 벤치마크

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

January 26, 2026
저자: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou
cs.AI

초록

시계열 데이터는 현실 세계 시나리오에서 광범위하게 존재하며 에너지 관리부터 교통 제어에 이르기까지 중요한 응용 분야에서 핵심적인 역할을 합니다. 따라서 시계열을 추론하는 능력은 일반ist 모델이 실질적인 문제를 해결하기 위해 필수적으로 갖춰야 할 기초 능력입니다. 그러나 이 차원은 기존 일반ist 모델 벤치마크에서 현저히 부재한 상태입니다. 이러한 격차를 해소하기 위해 우리는 시계열 추론 능력의 전체 스펙트럼을 집중적으로 평가하기 위한 포괄적인 다중 모달 벤치마크인 TSRBench을 소개합니다. TSRBench의 특징은 다음과 같습니다: i) 14개 분야에서 수집된 4,125개의 다양한 문제 세트로, 인지(Perception), 추론(Reasoning), 예측(Prediction), 의사 결정(Decision-Making)이라는 4가지 주요 차원으로 분류됩니다. ii) 4개 차원의 15개 과제를 통해 수치 추론 등 핵심적인 추론 능력을 평가합니다. 광범위한 실험을 통해 TSRBench 내에서 30개 이상의 주요 독점 및 오픈소스 LLM, VLM, TSLLM을 평가했습니다. 우리의 연구 결과는 다음과 같이 나타났습니다: i) 규모의 법칙은 인지와 추론 영역에서는 적용되지만 예측 영역에서는 적용되지 않습니다. ii) 강력한 추론 능력이 정확한 상황 인식 예측을 보장하지 않아, 의미론적 이해와 수치적 예측 간의 분리 현상을 시사합니다. iii) 시계열의 텍스트 및 시각적 표현이 입력값으로서 상호 보완적인 특성을 지님에도 불구하고, 현재의 다중 모달 모델들은 상호 성능 향상을 위해 이들을 효과적으로 융합하지 못하고 있습니다. TSRBench은 기존의 도전 과제를 부각시킬 뿐만 아니라 일반ist 모델의 발전을 위한 가치 있는 통찰력을 제공하는 표준화된 평가 플랫폼입니다. 우리의 코드와 데이터 세트는 https://tsrbench.github.io/에서 이용할 수 있습니다.
English
Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.
PDF31January 28, 2026