ChatPaper.aiChatPaper

TIME : Un benchmark multi-niveau pour l'évaluation du raisonnement temporel des LLM dans des scénarios du monde réel

TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

May 19, 2025
Auteurs: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI

Résumé

Le raisonnement temporel est crucial pour que les modèles de langage à grande échelle (LLMs) comprennent le monde réel. Cependant, les travaux existants négligent les défis réels du raisonnement temporel : (1) l'intensité des informations temporelles, (2) la dynamique rapide des événements, et (3) les dépendances temporelles complexes dans les interactions sociales. Pour combler cette lacune, nous proposons un benchmark multi-niveaux appelé TIME, conçu pour le raisonnement temporel dans des scénarios réels. TIME comprend 38 522 paires de questions-réponses, couvrant 3 niveaux avec 11 sous-tâches fines. Ce benchmark englobe 3 sous-ensembles de données reflétant différents défis du monde réel : TIME-Wiki, TIME-News et TIME-Dial. Nous menons des expériences approfondies sur des modèles de raisonnement et des modèles non raisonnés. Nous avons également effectué une analyse approfondie des performances en matière de raisonnement temporel dans divers scénarios et tâches réels, et résumé l'impact de la mise à l'échelle au moment du test sur les capacités de raisonnement temporel. De plus, nous publions TIME-Lite, un sous-ensemble annoté manuellement pour favoriser les recherches futures et l'évaluation standardisée en raisonnement temporel. Le code est disponible à l'adresse https://github.com/sylvain-wei/TIME, et le jeu de données est accessible à l'adresse https://huggingface.co/datasets/SylvainWei/TIME.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend the real world. However, existing works neglect the real-world challenges for temporal reasoning: (1) intensive temporal information, (2) fast-changing event dynamics, and (3) complex temporal dependencies in social interactions. To bridge this gap, we propose a multi-level benchmark TIME, designed for temporal reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3 levels with 11 fine-grained sub-tasks. This benchmark encompasses 3 sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News, and TIME-Dial. We conduct extensive experiments on reasoning models and non-reasoning models. And we conducted an in-depth analysis of temporal reasoning performance across diverse real-world scenarios and tasks, and summarized the impact of test-time scaling on temporal reasoning capabilities. Additionally, we release TIME-Lite, a human-annotated subset to foster future research and standardized evaluation in temporal reasoning. The code is available at https://github.com/sylvain-wei/TIME , and the dataset is available at https://huggingface.co/datasets/SylvainWei/TIME .

Summary

AI-Generated Summary

PDF22May 26, 2025