Time-R1: Hacia un razonamiento temporal integral en los LLM

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) demuestran capacidades impresionantes pero carecen de inteligencia temporal robusta, luchando por integrar el razonamiento sobre el pasado con predicciones y generaciones plausibles del futuro. Mientras tanto, los métodos existentes suelen enfocarse en habilidades temporales aisladas, como la respuesta a preguntas sobre eventos pasados o pronósticos básicos, y muestran una generalización deficiente, especialmente cuando se trata de eventos más allá de su límite de conocimiento o que requieren previsión creativa. Para abordar estas limitaciones, presentamos Time-R1, el primer marco que dota a un LLM de tamaño moderado (3 mil millones de parámetros) con habilidades temporales integrales: comprensión, predicción y generación creativa. Nuestro enfoque presenta una novedosa trayectoria de desarrollo en tres etapas; las dos primeras constituyen un currículo de aprendizaje por refuerzo (RL) impulsado por un sistema de recompensas dinámico basado en reglas cuidadosamente diseñado. Este marco construye progresivamente (1) una comprensión temporal fundamental y mapeos lógicos de eventos-tiempo a partir de datos históricos, (2) habilidades de predicción de eventos futuros para eventos más allá de su límite de conocimiento, y finalmente (3) permite una generalización notable hacia la generación creativa de escenarios futuros sin necesidad de ajuste fino. Sorprendentemente, los experimentos demuestran que Time-R1 supera a modelos más de 200 veces más grandes, incluyendo el estado del arte DeepSeek-R1 de 671 mil millones de parámetros, en puntos de referencia altamente desafiantes de predicción de eventos futuros y generación creativa de escenarios. Este trabajo proporciona evidencia sólida de que un ajuste fino progresivo y bien diseñado mediante RL permite que modelos más pequeños y eficientes logren un rendimiento temporal superior, ofreciendo un camino práctico y escalable hacia una IA verdaderamente consciente del tiempo. Para fomentar más investigación, también lanzamos Time-Bench, un conjunto de datos a gran escala de razonamiento temporal multitarea derivado de 10 años de datos de noticias, y nuestra serie de puntos de control de Time-R1.

English

Large Language Models (LLMs) demonstrate impressive capabilities but lack robust temporal intelligence, struggling to integrate reasoning about the past with predictions and plausible generations of the future. Meanwhile, existing methods typically target isolated temporal skills, such as question answering about past events or basic forecasting, and exhibit poor generalization, particularly when dealing with events beyond their knowledge cutoff or requiring creative foresight. To address these limitations, we introduce Time-R1, the first framework to endow a moderate-sized (3B-parameter) LLM with comprehensive temporal abilities: understanding, prediction, and creative generation. Our approach features a novel three-stage development path; the first two constitute a reinforcement learning (RL) curriculum driven by a meticulously designed dynamic rule-based reward system. This framework progressively builds (1) foundational temporal understanding and logical event-time mappings from historical data, (2) future event prediction skills for events beyond its knowledge cutoff, and finally (3) enables remarkable generalization to creative future scenario generation without any fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1, on highly challenging future event prediction and creative scenario generation benchmarks. This work provides strong evidence that thoughtfully engineered, progressive RL fine-tuning allows smaller, efficient models to achieve superior temporal performance, offering a practical and scalable path towards truly time-aware AI. To foster further research, we also release Time-Bench, a large-scale multi-task temporal reasoning dataset derived from 10 years of news data, and our series of Time-R1 checkpoints.

Time-R1: Hacia un razonamiento temporal integral en los LLM

Time-R1: Towards Comprehensive Temporal Reasoning in LLMs

Resumen

Support