ChatPaper.aiChatPaper

TSRBench: Un Punto de Referencia Integral de Razonamiento de Series Temporales Multi-tarea y Multimodal para Modelos Generalistas

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

January 26, 2026
Autores: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou
cs.AI

Resumen

Los datos de series temporales son ubicuos en escenarios del mundo real y cruciales para aplicaciones críticas que van desde la gestión energética hasta el control de tráfico. En consecuencia, la capacidad de razonar sobre series temporales es una habilidad fundamental para los modelos generalistas a la hora de resolver problemas prácticos. Sin embargo, esta dimensión está notablemente ausente en los puntos de referencia existentes para modelos generalistas. Para cerrar esta brecha, presentamos TSRBench, un benchmark multimodal integral diseñado para evaluar exhaustivamente el espectro completo de capacidades de razonamiento sobre series temporales. TSRBench presenta: i) un conjunto diverso de 4125 problemas de 14 dominios, categorizados en 4 dimensiones principales: Percepción, Razonamiento, Predicción y Toma de Decisiones; ii) 15 tareas dentro de las 4 dimensiones que evalúan capacidades de razonamiento esenciales (por ejemplo, razonamiento numérico). Mediante experimentos exhaustivos, evaluamos más de 30 modelos de lenguaje grandes (LLM), modelos de lenguaje visual (VLM) y modelos de lenguaje grandes para series temporales (TSLLM) líderes, tanto propietarios como de código abierto, dentro de TSRBench. Nuestros hallazgos revelan que: i) las leyes de escalado se mantienen para la percepción y el razonamiento pero se rompen para la predicción; ii) un razonamiento sólido no garantiza una previsión precisa consciente del contexto, lo que indica un desacoplamiento entre la comprensión semántica y la predicción numérica; y iii) a pesar de la naturaleza complementaria de las representaciones textuales y visuales de las series temporales como entradas, los modelos multimodales actuales no logran fusionarlas efectivamente para obtener ganancias de rendimiento recíprocas. TSRBench proporciona una plataforma de evaluación estandarizada que no solo destaca los desafíos existentes, sino que también ofrece perspectivas valiosas para avanzar en el desarrollo de modelos generalistas. Nuestro código y dataset están disponibles en https://tsrbench.github.io/.
English
Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.
PDF31January 28, 2026