TIME: Een Multi-level Benchmark voor Temporeel Redeneren van LLMs in Real-World Scenario's

Samenvatting

Temporeel redeneren is cruciaal voor Large Language Models (LLMs) om de echte wereld te begrijpen. Bestaande werken negeren echter de uitdagingen in de echte wereld voor temporeel redeneren: (1) intensieve temporele informatie, (2) snel veranderende gebeurtenisdynamiek, en (3) complexe temporele afhankelijkheden in sociale interacties. Om deze kloof te overbruggen, stellen we een multi-level benchmark TIME voor, ontworpen voor temporeel redeneren in realistische scenario's. TIME bestaat uit 38.522 vraag-antwoordparen, verdeeld over 3 niveaus met 11 fijnmazige sub-taken. Deze benchmark omvat 3 sub-datasets die verschillende real-world uitdagingen weerspiegelen: TIME-Wiki, TIME-News, en TIME-Dial. We voeren uitgebreide experimenten uit op redeneermodellen en niet-redeneermodellen. Daarnaast hebben we een diepgaande analyse gemaakt van de prestaties van temporeel redeneren in diverse realistische scenario's en taken, en hebben we de impact van test-time schaling op temporele redeneervaardigheden samengevat. Bovendien brengen we TIME-Lite uit, een door mensen geannoteerde subset om toekomstig onderzoek en gestandaardiseerde evaluatie van temporeel redeneren te bevorderen. De code is beschikbaar op https://github.com/sylvain-wei/TIME, en de dataset is beschikbaar op https://huggingface.co/datasets/SylvainWei/TIME.

English

Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend the real world. However, existing works neglect the real-world challenges for temporal reasoning: (1) intensive temporal information, (2) fast-changing event dynamics, and (3) complex temporal dependencies in social interactions. To bridge this gap, we propose a multi-level benchmark TIME, designed for temporal reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3 levels with 11 fine-grained sub-tasks. This benchmark encompasses 3 sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News, and TIME-Dial. We conduct extensive experiments on reasoning models and non-reasoning models. And we conducted an in-depth analysis of temporal reasoning performance across diverse real-world scenarios and tasks, and summarized the impact of test-time scaling on temporal reasoning capabilities. Additionally, we release TIME-Lite, a human-annotated subset to foster future research and standardized evaluation in temporal reasoning. The code is available at https://github.com/sylvain-wei/TIME , and the dataset is available at https://huggingface.co/datasets/SylvainWei/TIME .

TIME: Een Multi-level Benchmark voor Temporeel Redeneren van LLMs in Real-World Scenario's

TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

Samenvatting

Support