Time-R1 : Vers un raisonnement temporel complet dans les LLM
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs
May 16, 2025
Auteurs: Zijia Liu, Peixuan Han, Haofei Yu, Haoru Li, Jiaxuan You
cs.AI
Résumé
Les grands modèles de langage (LLM) démontrent des capacités impressionnantes mais manquent d'une intelligence temporelle robuste, peinant à intégrer un raisonnement sur le passé avec des prédictions et des générations plausibles du futur. Par ailleurs, les méthodes existantes ciblent généralement des compétences temporelles isolées, comme la réponse à des questions sur des événements passés ou des prévisions basiques, et montrent une faible généralisation, en particulier lorsqu'il s'agit d'événements au-delà de leur date de connaissance ou nécessitant une vision créative. Pour pallier ces limites, nous introduisons Time-R1, le premier cadre permettant de doter un LLM de taille modérée (3 milliards de paramètres) de capacités temporelles complètes : compréhension, prédiction et génération créative. Notre approche repose sur un parcours de développement en trois étapes novateur ; les deux premières constituent un curriculum d'apprentissage par renforcement (RL) piloté par un système de récompenses dynamique basé sur des règles soigneusement conçues. Ce cadre construit progressivement (1) une compréhension temporelle fondamentale et des correspondances logiques entre événements et temps à partir de données historiques, (2) des compétences de prédiction d'événements futurs au-delà de sa date de connaissance, et enfin (3) permet une généralisation remarquable à la génération de scénarios futurs créatifs sans aucun ajustement fin. De manière frappante, les expériences montrent que Time-R1 surpasse des modèles plus de 200 fois plus grands, y compris le modèle de pointe DeepSeek-R1 de 671 milliards de paramètres, sur des benchmarks très exigeants de prédiction d'événements futurs et de génération de scénarios créatifs. Ce travail fournit des preuves solides qu'un ajustement fin progressif et bien conçu en RL permet à des modèles plus petits et efficaces d'atteindre une performance temporelle supérieure, offrant une voie pratique et évolutive vers une IA véritablement consciente du temps. Pour encourager la recherche, nous publions également Time-Bench, un ensemble de données multi-tâches à grande échelle pour le raisonnement temporel dérivé de 10 ans de données d'actualité, ainsi que notre série de points de contrôle Time-R1.
English
Large Language Models (LLMs) demonstrate impressive capabilities but lack
robust temporal intelligence, struggling to integrate reasoning about the past
with predictions and plausible generations of the future. Meanwhile, existing
methods typically target isolated temporal skills, such as question answering
about past events or basic forecasting, and exhibit poor generalization,
particularly when dealing with events beyond their knowledge cutoff or
requiring creative foresight. To address these limitations, we introduce
Time-R1, the first framework to endow a moderate-sized (3B-parameter)
LLM with comprehensive temporal abilities: understanding, prediction, and
creative generation. Our approach features a novel three-stage development
path; the first two constitute a reinforcement learning (RL)
curriculum driven by a meticulously designed dynamic rule-based reward system.
This framework progressively builds (1) foundational temporal understanding and
logical event-time mappings from historical data, (2) future event prediction
skills for events beyond its knowledge cutoff, and finally (3) enables
remarkable generalization to creative future scenario generation without any
fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms
models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1,
on highly challenging future event prediction and creative scenario generation
benchmarks. This work provides strong evidence that thoughtfully engineered,
progressive RL fine-tuning allows smaller, efficient models to achieve superior
temporal performance, offering a practical and scalable path towards truly
time-aware AI. To foster further research, we also release Time-Bench,
a large-scale multi-task temporal reasoning dataset derived from 10 years of
news data, and our series of Time-R1 checkpoints.Summary
AI-Generated Summary