TIME: Многоуровневый эталон для оценки способности крупных языковых моделей к временному рассуждению в реальных сценариях
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
May 19, 2025
Авторы: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI
Аннотация
Временное рассуждение играет ключевую роль для больших языковых моделей (LLM) в понимании реального мира. Однако существующие работы упускают из виду реальные вызовы, связанные с временным рассуждением: (1) интенсивная временная информация, (2) быстро меняющаяся динамика событий и (3) сложные временные зависимости в социальных взаимодействиях. Чтобы устранить этот пробел, мы предлагаем многоуровневый бенчмарк TIME, разработанный для временного рассуждения в реальных сценариях. TIME состоит из 38 522 пар вопросов и ответов, охватывающих 3 уровня с 11 детализированными подзадачами. Этот бенчмарк включает 3 поднабора данных, отражающих различные реальные вызовы: TIME-Wiki, TIME-News и TIME-Dial. Мы провели обширные эксперименты на моделях рассуждения и моделях без рассуждения, а также выполнили глубокий анализ производительности временного рассуждения в различных реальных сценариях и задачах, обобщив влияние масштабирования на этапе тестирования на способности временного рассуждения. Дополнительно мы выпускаем TIME-Lite, аннотированный человеком поднабор данных, чтобы способствовать будущим исследованиям и стандартизированной оценке в области временного рассуждения. Код доступен по адресу https://github.com/sylvain-wei/TIME, а набор данных — по адресу https://huggingface.co/datasets/SylvainWei/TIME.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend
the real world. However, existing works neglect the real-world challenges for
temporal reasoning: (1) intensive temporal information, (2) fast-changing event
dynamics, and (3) complex temporal dependencies in social interactions. To
bridge this gap, we propose a multi-level benchmark TIME, designed for temporal
reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3
levels with 11 fine-grained sub-tasks. This benchmark encompasses 3
sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News,
and TIME-Dial. We conduct extensive experiments on reasoning models and
non-reasoning models. And we conducted an in-depth analysis of temporal
reasoning performance across diverse real-world scenarios and tasks, and
summarized the impact of test-time scaling on temporal reasoning capabilities.
Additionally, we release TIME-Lite, a human-annotated subset to foster future
research and standardized evaluation in temporal reasoning. The code is
available at https://github.com/sylvain-wei/TIME , and the dataset is available
at https://huggingface.co/datasets/SylvainWei/TIME .Summary
AI-Generated Summary