TIME: Um Benchmark Multinível para Raciocínio Temporal de LLMs em Cenários do Mundo Real
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
May 19, 2025
Autores: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI
Resumo
O raciocínio temporal é fundamental para que os Modelos de Linguagem de Grande Escala (LLMs) compreendam o mundo real. No entanto, trabalhos existentes negligenciam os desafios reais do raciocínio temporal: (1) informações temporais intensivas, (2) dinâmicas de eventos de rápida mudança e (3) dependências temporais complexas em interações sociais. Para preencher essa lacuna, propomos um benchmark multinível chamado TIME, projetado para raciocínio temporal em cenários do mundo real. O TIME consiste em 38.522 pares de perguntas e respostas, abrangendo 3 níveis com 11 sub-tarefas detalhadas. Esse benchmark engloba 3 subconjuntos de dados que refletem diferentes desafios do mundo real: TIME-Wiki, TIME-News e TIME-Dial. Realizamos experimentos extensivos em modelos de raciocínio e modelos sem raciocínio. Além disso, conduzimos uma análise aprofundada do desempenho do raciocínio temporal em diversos cenários e tarefas do mundo real, e resumimos o impacto do escalonamento no momento do teste nas capacidades de raciocínio temporal. Adicionalmente, lançamos o TIME-Lite, um subconjunto anotado manualmente para promover pesquisas futuras e avaliações padronizadas em raciocínio temporal. O código está disponível em https://github.com/sylvain-wei/TIME, e o conjunto de dados pode ser acessado em https://huggingface.co/datasets/SylvainWei/TIME.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend
the real world. However, existing works neglect the real-world challenges for
temporal reasoning: (1) intensive temporal information, (2) fast-changing event
dynamics, and (3) complex temporal dependencies in social interactions. To
bridge this gap, we propose a multi-level benchmark TIME, designed for temporal
reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3
levels with 11 fine-grained sub-tasks. This benchmark encompasses 3
sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News,
and TIME-Dial. We conduct extensive experiments on reasoning models and
non-reasoning models. And we conducted an in-depth analysis of temporal
reasoning performance across diverse real-world scenarios and tasks, and
summarized the impact of test-time scaling on temporal reasoning capabilities.
Additionally, we release TIME-Lite, a human-annotated subset to foster future
research and standardized evaluation in temporal reasoning. The code is
available at https://github.com/sylvain-wei/TIME , and the dataset is available
at https://huggingface.co/datasets/SylvainWei/TIME .