Time-R1: Umfassendes zeitliches Denken in LLMs erreichen
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs
May 16, 2025
Autoren: Zijia Liu, Peixuan Han, Haofei Yu, Haoru Li, Jiaxuan You
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten, mangelt es ihnen jedoch an robuster zeitlicher Intelligenz, was es ihnen schwer macht, Schlussfolgerungen über die Vergangenheit mit Vorhersagen und plausiblen Generierungen der Zukunft zu integrieren. Gleichzeitig zielen bestehende Methoden typischerweise auf isolierte zeitliche Fähigkeiten ab, wie z.B. das Beantworten von Fragen zu vergangenen Ereignissen oder grundlegende Prognosen, und zeigen eine schlechte Generalisierung, insbesondere bei der Behandlung von Ereignissen, die über ihren Wissensstand hinausgehen oder kreative Voraussicht erfordern. Um diese Einschränkungen zu überwinden, führen wir Time-R1 ein, das erste Framework, das ein mittelgroßes (3B-Parameter) LLM mit umfassenden zeitlichen Fähigkeiten ausstattet: Verständnis, Vorhersage und kreative Generierung. Unser Ansatz zeichnet sich durch einen neuartigen dreistufigen Entwicklungsweg aus; die ersten beiden Stufen bilden ein Reinforcement Learning (RL)-Curriculum, das von einem sorgfältig entworfenen dynamischen regelbasierten Belohnungssystem angetrieben wird. Dieses Framework baut schrittweise (1) grundlegendes zeitliches Verständnis und logische Ereignis-Zeit-Zuordnungen aus historischen Daten auf, (2) Fähigkeiten zur Vorhersage zukünftiger Ereignisse, die über den Wissensstand hinausgehen, und schließlich (3) ermöglicht es eine bemerkenswerte Generalisierung zur kreativen Generierung zukünftiger Szenarien ohne jegliches Fine-Tuning. Bemerkenswerterweise zeigen Experimente, dass Time-R1 Modelle, die über 200-mal größer sind, einschließlich des state-of-the-art 671B DeepSeek-R1, bei hoch anspruchsvollen Benchmarks zur Vorhersage zukünftiger Ereignisse und zur kreativen Szenariengenerierung übertrifft. Diese Arbeit liefert starke Beweise dafür, dass durchdacht konstruiertes, progressives RL-Fine-Tuning kleineren, effizienten Modellen ermöglicht, überlegene zeitliche Leistungen zu erzielen, und bietet einen praktischen und skalierbaren Weg hin zu wirklich zeitbewusster KI. Um weitere Forschung zu fördern, veröffentlichen wir auch Time-Bench, einen groß angelegten Multi-Task-Datensatz für zeitliches Schließen, der aus 10 Jahren Nachrichtendaten abgeleitet wurde, sowie unsere Reihe von Time-R1-Checkpoints.
English
Large Language Models (LLMs) demonstrate impressive capabilities but lack
robust temporal intelligence, struggling to integrate reasoning about the past
with predictions and plausible generations of the future. Meanwhile, existing
methods typically target isolated temporal skills, such as question answering
about past events or basic forecasting, and exhibit poor generalization,
particularly when dealing with events beyond their knowledge cutoff or
requiring creative foresight. To address these limitations, we introduce
Time-R1, the first framework to endow a moderate-sized (3B-parameter)
LLM with comprehensive temporal abilities: understanding, prediction, and
creative generation. Our approach features a novel three-stage development
path; the first two constitute a reinforcement learning (RL)
curriculum driven by a meticulously designed dynamic rule-based reward system.
This framework progressively builds (1) foundational temporal understanding and
logical event-time mappings from historical data, (2) future event prediction
skills for events beyond its knowledge cutoff, and finally (3) enables
remarkable generalization to creative future scenario generation without any
fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms
models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1,
on highly challenging future event prediction and creative scenario generation
benchmarks. This work provides strong evidence that thoughtfully engineered,
progressive RL fine-tuning allows smaller, efficient models to achieve superior
temporal performance, offering a practical and scalable path towards truly
time-aware AI. To foster further research, we also release Time-Bench,
a large-scale multi-task temporal reasoning dataset derived from 10 years of
news data, and our series of Time-R1 checkpoints.Summary
AI-Generated Summary