ChatPaper.aiChatPaper

Time-R1: Naar een uitgebreid temporeel redeneren in LLM's

Time-R1: Towards Comprehensive Temporal Reasoning in LLMs

May 16, 2025
Auteurs: Zijia Liu, Peixuan Han, Haofei Yu, Haoru Li, Jiaxuan You
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) tonen indrukwekkende capaciteiten, maar missen robuuste temporele intelligentie en hebben moeite om redeneringen over het verleden te integreren met voorspellingen en plausibele generaties van de toekomst. Bestaande methoden richten zich doorgaans op geïsoleerde temporele vaardigheden, zoals het beantwoorden van vragen over gebeurtenissen uit het verleden of basisvoorspellingen, en vertonen slechte generalisatie, vooral bij gebeurtenissen buiten hun kennisafsnijdatum of wanneer creatief vooruitzien vereist is. Om deze beperkingen aan te pakken, introduceren we Time-R1, het eerste raamwerk dat een middelgroot LLM (3B parameters) uitrust met uitgebreide temporele vaardigheden: begrip, voorspelling en creatieve generatie. Onze aanpak kenmerkt zich door een nieuw drietraps ontwikkelingspad; de eerste twee fasen vormen een curriculum voor reinforcement learning (RL) dat wordt aangedreven door een zorgvuldig ontworpen dynamisch regelgebaseerd beloningssysteem. Dit raamwerk bouwt geleidelijk (1) fundamenteel temporeel begrip en logische gebeurtenis-tijdmappingen op basis van historische data op, (2) voorspellingsvaardigheden voor toekomstige gebeurtenissen buiten de kennisafsnijdatum, en maakt ten slotte (3) opmerkelijke generalisatie mogelijk naar creatieve generatie van toekomstige scenario's zonder enige fine-tuning. Opvallend is dat experimenten aantonen dat Time-R1 modellen die meer dan 200 keer groter zijn, waaronder het state-of-the-art 671B DeepSeek-R1, overtreft op zeer uitdagende benchmarks voor toekomstige gebeurtenisvoorspelling en creatieve scenariogeneratie. Dit werk levert sterk bewijs dat zorgvuldig ontworpen, progressieve RL fine-tuning kleinere, efficiënte modellen in staat stelt superieure temporele prestaties te bereiken, en biedt een praktische en schaalbare weg naar echt tijd-bewuste AI. Om verder onderzoek te bevorderen, geven we ook Time-Bench vrij, een grootschalige multi-task dataset voor temporeel redeneren afgeleid uit 10 jaar nieuwsdata, en onze reeks Time-R1 checkpoints.
English
Large Language Models (LLMs) demonstrate impressive capabilities but lack robust temporal intelligence, struggling to integrate reasoning about the past with predictions and plausible generations of the future. Meanwhile, existing methods typically target isolated temporal skills, such as question answering about past events or basic forecasting, and exhibit poor generalization, particularly when dealing with events beyond their knowledge cutoff or requiring creative foresight. To address these limitations, we introduce Time-R1, the first framework to endow a moderate-sized (3B-parameter) LLM with comprehensive temporal abilities: understanding, prediction, and creative generation. Our approach features a novel three-stage development path; the first two constitute a reinforcement learning (RL) curriculum driven by a meticulously designed dynamic rule-based reward system. This framework progressively builds (1) foundational temporal understanding and logical event-time mappings from historical data, (2) future event prediction skills for events beyond its knowledge cutoff, and finally (3) enables remarkable generalization to creative future scenario generation without any fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1, on highly challenging future event prediction and creative scenario generation benchmarks. This work provides strong evidence that thoughtfully engineered, progressive RL fine-tuning allows smaller, efficient models to achieve superior temporal performance, offering a practical and scalable path towards truly time-aware AI. To foster further research, we also release Time-Bench, a large-scale multi-task temporal reasoning dataset derived from 10 years of news data, and our series of Time-R1 checkpoints.
PDF153May 26, 2025