ChatPaper.aiChatPaper

TIME: Un Benchmark Multilivello per il Ragionamento Temporale dei Modelli Linguistici in Scenari del Mondo Reale

TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

May 19, 2025
Autori: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI

Abstract

Il ragionamento temporale è fondamentale affinché i Large Language Models (LLM) possano comprendere il mondo reale. Tuttavia, i lavori esistenti trascurano le sfide reali del ragionamento temporale: (1) l'intensità delle informazioni temporali, (2) la rapida evoluzione delle dinamiche degli eventi e (3) le complesse dipendenze temporali nelle interazioni sociali. Per colmare questa lacuna, proponiamo un benchmark multi-livello chiamato TIME, progettato per il ragionamento temporale in scenari reali. TIME è composto da 38.522 coppie domanda-risposta, che coprono 3 livelli con 11 sotto-task dettagliati. Questo benchmark include 3 sotto-dataset che riflettono diverse sfide del mondo reale: TIME-Wiki, TIME-News e TIME-Dial. Abbiamo condotto esperimenti estesi su modelli di ragionamento e modelli non di ragionamento. Inoltre, abbiamo effettuato un'analisi approfondita delle prestazioni del ragionamento temporale in vari scenari e task reali, e abbiamo sintetizzato l'impatto del ridimensionamento al momento del test sulle capacità di ragionamento temporale. In aggiunta, rilasciamo TIME-Lite, un sottoinsieme annotato manualmente per favorire future ricerche e valutazioni standardizzate nel ragionamento temporale. Il codice è disponibile all'indirizzo https://github.com/sylvain-wei/TIME, e il dataset è disponibile all'indirizzo https://huggingface.co/datasets/SylvainWei/TIME.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend the real world. However, existing works neglect the real-world challenges for temporal reasoning: (1) intensive temporal information, (2) fast-changing event dynamics, and (3) complex temporal dependencies in social interactions. To bridge this gap, we propose a multi-level benchmark TIME, designed for temporal reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3 levels with 11 fine-grained sub-tasks. This benchmark encompasses 3 sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News, and TIME-Dial. We conduct extensive experiments on reasoning models and non-reasoning models. And we conducted an in-depth analysis of temporal reasoning performance across diverse real-world scenarios and tasks, and summarized the impact of test-time scaling on temporal reasoning capabilities. Additionally, we release TIME-Lite, a human-annotated subset to foster future research and standardized evaluation in temporal reasoning. The code is available at https://github.com/sylvain-wei/TIME , and the dataset is available at https://huggingface.co/datasets/SylvainWei/TIME .
PDF22May 26, 2025