TSRBench: Um Benchmark Abrangente de Raciocínio em Séries Temporais Multi-tarefa e Multimodal para Modelos Generalistas

Resumo

Os dados de séries temporais são ubíquos em cenários do mundo real e cruciais para aplicações críticas que vão desde a gestão de energia até o controle de tráfego. Consequentemente, a capacidade de raciocinar sobre séries temporais é uma competência fundamental para modelos generalistas resolverem problemas práticos. No entanto, esta dimensão está notavelmente ausente dos benchmarks existentes para modelos generalistas. Para preencher esta lacuna, introduzimos o TSRBench, um benchmark multimodal abrangente projetado para testar rigorosamente todo o espectro de capacidades de raciocínio sobre séries temporais. O TSRBench apresenta: i) um conjunto diversificado de 4125 problemas de 14 domínios, categorizado em 4 dimensões principais: Percepção, Raciocínio, Previsão e Tomada de Decisão; ii) 15 tarefas das 4 dimensões que avaliam capacidades essenciais de raciocínio (por exemplo, raciocínio numérico). Através de experimentos extensivos, avaliamos mais de 30 LLMs, VLMs e TSLLMs líderes, proprietários e de código aberto, dentro do TSRBench. Nossas descobertas revelam que: i) as leis de escala valem para perceção e raciocínio, mas falham na previsão; ii) um raciocínio forte não garante uma previsão contextual precisa, indicando um desacoplamento entre a compreensão semântica e a previsão numérica; e iii) apesar da natureza complementar das representações textuais e visuais de séries temporais como entradas, os modelos multimodais atuais não conseguem fundi-las eficazmente para obter ganhos recíprocos de desempenho. O TSRBench fornece uma plataforma de avaliação padronizada que não só destaca os desafios existentes, mas também oferece insights valiosos para avançar os modelos generalistas. O nosso código e conjunto de dados estão disponíveis em https://tsrbench.github.io/.

English

Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.

TSRBench: Um Benchmark Abrangente de Raciocínio em Séries Temporais Multi-tarefa e Multimodal para Modelos Generalistas

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

Resumo

Support