ChatPaper.aiChatPaper

TSRBench: Um Benchmark Abrangente de Raciocínio em Séries Temporais Multi-tarefa e Multimodal para Modelos Generalistas

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

January 26, 2026
Autores: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou
cs.AI

Resumo

Os dados de séries temporais são ubíquos em cenários do mundo real e cruciais para aplicações críticas que vão desde a gestão de energia até o controle de tráfego. Consequentemente, a capacidade de raciocinar sobre séries temporais é uma competência fundamental para modelos generalistas resolverem problemas práticos. No entanto, esta dimensão está notavelmente ausente dos benchmarks existentes para modelos generalistas. Para preencher esta lacuna, introduzimos o TSRBench, um benchmark multimodal abrangente projetado para testar rigorosamente todo o espectro de capacidades de raciocínio sobre séries temporais. O TSRBench apresenta: i) um conjunto diversificado de 4125 problemas de 14 domínios, categorizado em 4 dimensões principais: Percepção, Raciocínio, Previsão e Tomada de Decisão; ii) 15 tarefas das 4 dimensões que avaliam capacidades essenciais de raciocínio (por exemplo, raciocínio numérico). Através de experimentos extensivos, avaliamos mais de 30 LLMs, VLMs e TSLLMs líderes, proprietários e de código aberto, dentro do TSRBench. Nossas descobertas revelam que: i) as leis de escala valem para perceção e raciocínio, mas falham na previsão; ii) um raciocínio forte não garante uma previsão contextual precisa, indicando um desacoplamento entre a compreensão semântica e a previsão numérica; e iii) apesar da natureza complementar das representações textuais e visuais de séries temporais como entradas, os modelos multimodais atuais não conseguem fundi-las eficazmente para obter ganhos recíprocos de desempenho. O TSRBench fornece uma plataforma de avaliação padronizada que não só destaca os desafios existentes, mas também oferece insights valiosos para avançar os modelos generalistas. O nosso código e conjunto de dados estão disponíveis em https://tsrbench.github.io/.
English
Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.
PDF102March 6, 2026