TIME: Ein mehrstufiger Benchmark für das zeitliche Denken von LLMs in realen Szenarien
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
May 19, 2025
Autoren: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI
Zusammenfassung
Zeitliches Denken ist entscheidend für Large Language Models (LLMs), um die reale Welt zu verstehen. Bisherige Arbeiten vernachlässigen jedoch die realen Herausforderungen des zeitlichen Denkens: (1) intensive zeitliche Informationen, (2) sich schnell verändernde Ereignisdynamiken und (3) komplexe zeitliche Abhängigkeiten in sozialen Interaktionen. Um diese Lücke zu schließen, schlagen wir einen mehrstufigen Benchmark namens TIME vor, der für zeitliches Denken in realen Szenarien entwickelt wurde. TIME besteht aus 38.522 Frage-Antwort-Paaren, die 3 Ebenen mit 11 fein abgestuften Teilaufgaben abdecken. Dieser Benchmark umfasst 3 Teil-Datensätze, die unterschiedliche reale Herausforderungen widerspiegeln: TIME-Wiki, TIME-News und TIME-Dial. Wir führen umfangreiche Experimente mit Denkmodellen und Nicht-Denkmodellen durch. Zudem analysieren wir die Leistung des zeitlichen Denkens in verschiedenen realen Szenarien und Aufgaben detailliert und fassen die Auswirkungen von Testzeit-Skalierung auf die Fähigkeiten des zeitlichen Denkens zusammen. Darüber hinaus veröffentlichen wir TIME-Lite, eine von Menschen annotierte Teilmenge, um zukünftige Forschung und standardisierte Bewertung im Bereich des zeitlichen Denkens zu fördern. Der Code ist unter https://github.com/sylvain-wei/TIME verfügbar, und der Datensatz ist unter https://huggingface.co/datasets/SylvainWei/TIME zugänglich.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend
the real world. However, existing works neglect the real-world challenges for
temporal reasoning: (1) intensive temporal information, (2) fast-changing event
dynamics, and (3) complex temporal dependencies in social interactions. To
bridge this gap, we propose a multi-level benchmark TIME, designed for temporal
reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3
levels with 11 fine-grained sub-tasks. This benchmark encompasses 3
sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News,
and TIME-Dial. We conduct extensive experiments on reasoning models and
non-reasoning models. And we conducted an in-depth analysis of temporal
reasoning performance across diverse real-world scenarios and tasks, and
summarized the impact of test-time scaling on temporal reasoning capabilities.
Additionally, we release TIME-Lite, a human-annotated subset to foster future
research and standardized evaluation in temporal reasoning. The code is
available at https://github.com/sylvain-wei/TIME , and the dataset is available
at https://huggingface.co/datasets/SylvainWei/TIME .Summary
AI-Generated Summary