ChatPaper.aiChatPaper

TIME: Ein mehrstufiger Benchmark für das zeitliche Denken von LLMs in realen Szenarien

TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

May 19, 2025
Autoren: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI

Zusammenfassung

Zeitliches Denken ist entscheidend für Large Language Models (LLMs), um die reale Welt zu verstehen. Bisherige Arbeiten vernachlässigen jedoch die realen Herausforderungen des zeitlichen Denkens: (1) intensive zeitliche Informationen, (2) sich schnell verändernde Ereignisdynamiken und (3) komplexe zeitliche Abhängigkeiten in sozialen Interaktionen. Um diese Lücke zu schließen, schlagen wir einen mehrstufigen Benchmark namens TIME vor, der für zeitliches Denken in realen Szenarien entwickelt wurde. TIME besteht aus 38.522 Frage-Antwort-Paaren, die 3 Ebenen mit 11 fein abgestuften Teilaufgaben abdecken. Dieser Benchmark umfasst 3 Teil-Datensätze, die unterschiedliche reale Herausforderungen widerspiegeln: TIME-Wiki, TIME-News und TIME-Dial. Wir führen umfangreiche Experimente mit Denkmodellen und Nicht-Denkmodellen durch. Zudem analysieren wir die Leistung des zeitlichen Denkens in verschiedenen realen Szenarien und Aufgaben detailliert und fassen die Auswirkungen von Testzeit-Skalierung auf die Fähigkeiten des zeitlichen Denkens zusammen. Darüber hinaus veröffentlichen wir TIME-Lite, eine von Menschen annotierte Teilmenge, um zukünftige Forschung und standardisierte Bewertung im Bereich des zeitlichen Denkens zu fördern. Der Code ist unter https://github.com/sylvain-wei/TIME verfügbar, und der Datensatz ist unter https://huggingface.co/datasets/SylvainWei/TIME zugänglich.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend the real world. However, existing works neglect the real-world challenges for temporal reasoning: (1) intensive temporal information, (2) fast-changing event dynamics, and (3) complex temporal dependencies in social interactions. To bridge this gap, we propose a multi-level benchmark TIME, designed for temporal reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3 levels with 11 fine-grained sub-tasks. This benchmark encompasses 3 sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News, and TIME-Dial. We conduct extensive experiments on reasoning models and non-reasoning models. And we conducted an in-depth analysis of temporal reasoning performance across diverse real-world scenarios and tasks, and summarized the impact of test-time scaling on temporal reasoning capabilities. Additionally, we release TIME-Lite, a human-annotated subset to foster future research and standardized evaluation in temporal reasoning. The code is available at https://github.com/sylvain-wei/TIME , and the dataset is available at https://huggingface.co/datasets/SylvainWei/TIME .

Summary

AI-Generated Summary

PDF22May 26, 2025