TSRBench: Комплексный многозадачный многомодальный бенчмарк для проверки способностей к рассуждению на временных рядах в моделях-универсалах
TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models
January 26, 2026
Авторы: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou
cs.AI
Аннотация
Данные временных рядов повсеместно распространены в реальных сценариях и имеют критически важное значение для таких приложений, как управление энергопотреблением и контроль трафика. Следовательно, способность рассуждать о временных рядах является фундаментальным навыком для моделей-универсалов для решения практических задач. Однако это измерение заметно отсутствует в существующих бенчмарках для моделей-универсалов. Чтобы заполнить этот пробел, мы представляем TSRBench — комплексный мультимодальный бенчмарк, предназначенный для стресс-тестирования всего спектра способностей к рассуждению о временных рядах. TSRBench характеризуется: i) разнообразным набором из 4125 задач из 14 областей, классифицированных по 4 основным направлениям: Восприятие, Рассуждение, Прогнозирование и Принятие решений; ii) 15 заданиями из 4 направлений, оценивающими ключевые способности к рассуждению (например, числовое рассуждение). В ходе масштабных экспериментов мы оценили более 30 ведущих проприетарных и открытых больших языковых моделей (LLM), визуально-языковых моделей (VLM) и специализированных моделей для временных рядов (TSLLM) в рамках TSRBench. Наши результаты показывают, что: i) законы масштабирования работают для восприятия и рассуждения, но нарушаются для прогнозирования; ii) сильное рассуждение не гарантирует точного контекстно-зависимого прогнозирования, что указывает на разрыв между семантическим пониманием и численным предсказанием; iii) несмотря на комплементарный характер текстовых и визуальных представлений временных рядов в качестве входных данных, современные мультимодальные модели не способны эффективно объединять их для взаимного повышения производительности. TSRBench предоставляет стандартизированную платформу для оценки, которая не только выявляет существующие проблемы, но и предлагает ценные insights для развития моделей-универсалов. Наш код и набор данных доступны по адресу https://tsrbench.github.io/.
English
Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.