TIME: Een Multi-level Benchmark voor Temporeel Redeneren van LLMs in Real-World Scenario's
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
May 19, 2025
Auteurs: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
cs.AI
Samenvatting
Temporeel redeneren is cruciaal voor Large Language Models (LLMs) om de echte wereld te begrijpen. Bestaande werken negeren echter de uitdagingen in de echte wereld voor temporeel redeneren: (1) intensieve temporele informatie, (2) snel veranderende gebeurtenisdynamiek, en (3) complexe temporele afhankelijkheden in sociale interacties. Om deze kloof te overbruggen, stellen we een multi-level benchmark TIME voor, ontworpen voor temporeel redeneren in realistische scenario's. TIME bestaat uit 38.522 vraag-antwoordparen, verdeeld over 3 niveaus met 11 fijnmazige sub-taken. Deze benchmark omvat 3 sub-datasets die verschillende real-world uitdagingen weerspiegelen: TIME-Wiki, TIME-News, en TIME-Dial. We voeren uitgebreide experimenten uit op redeneermodellen en niet-redeneermodellen. Daarnaast hebben we een diepgaande analyse gemaakt van de prestaties van temporeel redeneren in diverse realistische scenario's en taken, en hebben we de impact van test-time schaling op temporele redeneervaardigheden samengevat. Bovendien brengen we TIME-Lite uit, een door mensen geannoteerde subset om toekomstig onderzoek en gestandaardiseerde evaluatie van temporeel redeneren te bevorderen. De code is beschikbaar op https://github.com/sylvain-wei/TIME, en de dataset is beschikbaar op https://huggingface.co/datasets/SylvainWei/TIME.
English
Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend
the real world. However, existing works neglect the real-world challenges for
temporal reasoning: (1) intensive temporal information, (2) fast-changing event
dynamics, and (3) complex temporal dependencies in social interactions. To
bridge this gap, we propose a multi-level benchmark TIME, designed for temporal
reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3
levels with 11 fine-grained sub-tasks. This benchmark encompasses 3
sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News,
and TIME-Dial. We conduct extensive experiments on reasoning models and
non-reasoning models. And we conducted an in-depth analysis of temporal
reasoning performance across diverse real-world scenarios and tasks, and
summarized the impact of test-time scaling on temporal reasoning capabilities.
Additionally, we release TIME-Lite, a human-annotated subset to foster future
research and standardized evaluation in temporal reasoning. The code is
available at https://github.com/sylvain-wei/TIME , and the dataset is available
at https://huggingface.co/datasets/SylvainWei/TIME .