Time-R1: Umfassendes zeitliches Denken in LLMs erreichen

papers.abstract

Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten, mangelt es ihnen jedoch an robuster zeitlicher Intelligenz, was es ihnen schwer macht, Schlussfolgerungen über die Vergangenheit mit Vorhersagen und plausiblen Generierungen der Zukunft zu integrieren. Gleichzeitig zielen bestehende Methoden typischerweise auf isolierte zeitliche Fähigkeiten ab, wie z.B. das Beantworten von Fragen zu vergangenen Ereignissen oder grundlegende Prognosen, und zeigen eine schlechte Generalisierung, insbesondere bei der Behandlung von Ereignissen, die über ihren Wissensstand hinausgehen oder kreative Voraussicht erfordern. Um diese Einschränkungen zu überwinden, führen wir Time-R1 ein, das erste Framework, das ein mittelgroßes (3B-Parameter) LLM mit umfassenden zeitlichen Fähigkeiten ausstattet: Verständnis, Vorhersage und kreative Generierung. Unser Ansatz zeichnet sich durch einen neuartigen dreistufigen Entwicklungsweg aus; die ersten beiden Stufen bilden ein Reinforcement Learning (RL)-Curriculum, das von einem sorgfältig entworfenen dynamischen regelbasierten Belohnungssystem angetrieben wird. Dieses Framework baut schrittweise (1) grundlegendes zeitliches Verständnis und logische Ereignis-Zeit-Zuordnungen aus historischen Daten auf, (2) Fähigkeiten zur Vorhersage zukünftiger Ereignisse, die über den Wissensstand hinausgehen, und schließlich (3) ermöglicht es eine bemerkenswerte Generalisierung zur kreativen Generierung zukünftiger Szenarien ohne jegliches Fine-Tuning. Bemerkenswerterweise zeigen Experimente, dass Time-R1 Modelle, die über 200-mal größer sind, einschließlich des state-of-the-art 671B DeepSeek-R1, bei hoch anspruchsvollen Benchmarks zur Vorhersage zukünftiger Ereignisse und zur kreativen Szenariengenerierung übertrifft. Diese Arbeit liefert starke Beweise dafür, dass durchdacht konstruiertes, progressives RL-Fine-Tuning kleineren, effizienten Modellen ermöglicht, überlegene zeitliche Leistungen zu erzielen, und bietet einen praktischen und skalierbaren Weg hin zu wirklich zeitbewusster KI. Um weitere Forschung zu fördern, veröffentlichen wir auch Time-Bench, einen groß angelegten Multi-Task-Datensatz für zeitliches Schließen, der aus 10 Jahren Nachrichtendaten abgeleitet wurde, sowie unsere Reihe von Time-R1-Checkpoints.

English

Large Language Models (LLMs) demonstrate impressive capabilities but lack robust temporal intelligence, struggling to integrate reasoning about the past with predictions and plausible generations of the future. Meanwhile, existing methods typically target isolated temporal skills, such as question answering about past events or basic forecasting, and exhibit poor generalization, particularly when dealing with events beyond their knowledge cutoff or requiring creative foresight. To address these limitations, we introduce Time-R1, the first framework to endow a moderate-sized (3B-parameter) LLM with comprehensive temporal abilities: understanding, prediction, and creative generation. Our approach features a novel three-stage development path; the first two constitute a reinforcement learning (RL) curriculum driven by a meticulously designed dynamic rule-based reward system. This framework progressively builds (1) foundational temporal understanding and logical event-time mappings from historical data, (2) future event prediction skills for events beyond its knowledge cutoff, and finally (3) enables remarkable generalization to creative future scenario generation without any fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1, on highly challenging future event prediction and creative scenario generation benchmarks. This work provides strong evidence that thoughtfully engineered, progressive RL fine-tuning allows smaller, efficient models to achieve superior temporal performance, offering a practical and scalable path towards truly time-aware AI. To foster further research, we also release Time-Bench, a large-scale multi-task temporal reasoning dataset derived from 10 years of news data, and our series of Time-R1 checkpoints.

Time-R1: Umfassendes zeitliches Denken in LLMs erreichen

Time-R1: Towards Comprehensive Temporal Reasoning in LLMs

papers.abstract

Support