ChatPaper.aiChatPaper

TIME: Un punto de referencia multinivel para el razonamiento temporal de los LLM en escenarios del mundo real

TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

May 19, 2025
Autores: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI

Resumen

El razonamiento temporal es fundamental para que los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) comprendan el mundo real. Sin embargo, los trabajos existentes pasan por alto los desafíos del mundo real en el razonamiento temporal: (1) la intensa información temporal, (2) la dinámica de eventos que cambia rápidamente, y (3) las complejas dependencias temporales en las interacciones sociales. Para cerrar esta brecha, proponemos un punto de referencia multinivel llamado TIME, diseñado para el razonamiento temporal en escenarios del mundo real. TIME consta de 38,522 pares de preguntas y respuestas, cubriendo 3 niveles con 11 subtareas detalladas. Este punto de referencia incluye 3 subconjuntos de datos que reflejan diferentes desafíos del mundo real: TIME-Wiki, TIME-News y TIME-Dial. Realizamos experimentos extensos en modelos de razonamiento y modelos no basados en razonamiento. Además, llevamos a cabo un análisis profundo del rendimiento en razonamiento temporal en diversos escenarios y tareas del mundo real, y resumimos el impacto del escalamiento en tiempo de prueba sobre las capacidades de razonamiento temporal. Adicionalmente, lanzamos TIME-Lite, un subconjunto anotado por humanos para fomentar futuras investigaciones y la evaluación estandarizada en razonamiento temporal. El código está disponible en https://github.com/sylvain-wei/TIME, y el conjunto de datos se encuentra en https://huggingface.co/datasets/SylvainWei/TIME.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend the real world. However, existing works neglect the real-world challenges for temporal reasoning: (1) intensive temporal information, (2) fast-changing event dynamics, and (3) complex temporal dependencies in social interactions. To bridge this gap, we propose a multi-level benchmark TIME, designed for temporal reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3 levels with 11 fine-grained sub-tasks. This benchmark encompasses 3 sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News, and TIME-Dial. We conduct extensive experiments on reasoning models and non-reasoning models. And we conducted an in-depth analysis of temporal reasoning performance across diverse real-world scenarios and tasks, and summarized the impact of test-time scaling on temporal reasoning capabilities. Additionally, we release TIME-Lite, a human-annotated subset to foster future research and standardized evaluation in temporal reasoning. The code is available at https://github.com/sylvain-wei/TIME , and the dataset is available at https://huggingface.co/datasets/SylvainWei/TIME .

Summary

AI-Generated Summary

PDF22May 26, 2025