Time-R1: Hacia un razonamiento temporal integral en los LLM
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs
May 16, 2025
Autores: Zijia Liu, Peixuan Han, Haofei Yu, Haoru Li, Jiaxuan You
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) demuestran capacidades impresionantes pero carecen de inteligencia temporal robusta, luchando por integrar el razonamiento sobre el pasado con predicciones y generaciones plausibles del futuro. Mientras tanto, los métodos existentes suelen enfocarse en habilidades temporales aisladas, como la respuesta a preguntas sobre eventos pasados o pronósticos básicos, y muestran una generalización deficiente, especialmente cuando se trata de eventos más allá de su límite de conocimiento o que requieren previsión creativa. Para abordar estas limitaciones, presentamos Time-R1, el primer marco que dota a un LLM de tamaño moderado (3 mil millones de parámetros) con habilidades temporales integrales: comprensión, predicción y generación creativa. Nuestro enfoque presenta una novedosa trayectoria de desarrollo en tres etapas; las dos primeras constituyen un currículo de aprendizaje por refuerzo (RL) impulsado por un sistema de recompensas dinámico basado en reglas cuidadosamente diseñado. Este marco construye progresivamente (1) una comprensión temporal fundamental y mapeos lógicos de eventos-tiempo a partir de datos históricos, (2) habilidades de predicción de eventos futuros para eventos más allá de su límite de conocimiento, y finalmente (3) permite una generalización notable hacia la generación creativa de escenarios futuros sin necesidad de ajuste fino. Sorprendentemente, los experimentos demuestran que Time-R1 supera a modelos más de 200 veces más grandes, incluyendo el estado del arte DeepSeek-R1 de 671 mil millones de parámetros, en puntos de referencia altamente desafiantes de predicción de eventos futuros y generación creativa de escenarios. Este trabajo proporciona evidencia sólida de que un ajuste fino progresivo y bien diseñado mediante RL permite que modelos más pequeños y eficientes logren un rendimiento temporal superior, ofreciendo un camino práctico y escalable hacia una IA verdaderamente consciente del tiempo. Para fomentar más investigación, también lanzamos Time-Bench, un conjunto de datos a gran escala de razonamiento temporal multitarea derivado de 10 años de datos de noticias, y nuestra serie de puntos de control de Time-R1.
English
Large Language Models (LLMs) demonstrate impressive capabilities but lack
robust temporal intelligence, struggling to integrate reasoning about the past
with predictions and plausible generations of the future. Meanwhile, existing
methods typically target isolated temporal skills, such as question answering
about past events or basic forecasting, and exhibit poor generalization,
particularly when dealing with events beyond their knowledge cutoff or
requiring creative foresight. To address these limitations, we introduce
Time-R1, the first framework to endow a moderate-sized (3B-parameter)
LLM with comprehensive temporal abilities: understanding, prediction, and
creative generation. Our approach features a novel three-stage development
path; the first two constitute a reinforcement learning (RL)
curriculum driven by a meticulously designed dynamic rule-based reward system.
This framework progressively builds (1) foundational temporal understanding and
logical event-time mappings from historical data, (2) future event prediction
skills for events beyond its knowledge cutoff, and finally (3) enables
remarkable generalization to creative future scenario generation without any
fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms
models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1,
on highly challenging future event prediction and creative scenario generation
benchmarks. This work provides strong evidence that thoughtfully engineered,
progressive RL fine-tuning allows smaller, efficient models to achieve superior
temporal performance, offering a practical and scalable path towards truly
time-aware AI. To foster further research, we also release Time-Bench,
a large-scale multi-task temporal reasoning dataset derived from 10 years of
news data, and our series of Time-R1 checkpoints.Summary
AI-Generated Summary