ChatPaper.aiChatPaper

Time-R1: Rumo ao Raciocínio Temporal Abrangente em LLMs

Time-R1: Towards Comprehensive Temporal Reasoning in LLMs

May 16, 2025
Autores: Zijia Liu, Peixuan Han, Haofei Yu, Haoru Li, Jiaxuan You
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades impressionantes, mas carecem de inteligência temporal robusta, lutando para integrar o raciocínio sobre o passado com previsões e gerações plausíveis do futuro. Enquanto isso, os métodos existentes geralmente visam habilidades temporais isoladas, como responder a perguntas sobre eventos passados ou previsões básicas, e exibem má generalização, especialmente ao lidar com eventos além de seu limite de conhecimento ou que exigem previsão criativa. Para abordar essas limitações, introduzimos o Time-R1, o primeiro framework a dotar um LLM de tamanho moderado (3 bilhões de parâmetros) com habilidades temporais abrangentes: compreensão, previsão e geração criativa. Nossa abordagem apresenta um caminho de desenvolvimento em três estágios; os dois primeiros constituem um currículo de aprendizado por reforço (RL) impulsionado por um sistema de recompensas dinâmico e baseado em regras meticulosamente projetado. Esse framework constrói progressivamente (1) a compreensão temporal fundamental e mapeamentos lógicos de eventos-tempo a partir de dados históricos, (2) habilidades de previsão de eventos futuros para eventos além de seu limite de conhecimento e, finalmente, (3) permite uma generalização notável para a geração de cenários futuros criativos sem qualquer ajuste fino. Impressionantemente, os experimentos demonstram que o Time-R1 supera modelos mais de 200 vezes maiores, incluindo o estado da arte DeepSeek-R1 de 671 bilhões, em benchmarks altamente desafiadores de previsão de eventos futuros e geração de cenários criativos. Este trabalho fornece evidências sólidas de que o ajuste fino progressivo e bem projetado de RL permite que modelos menores e eficientes alcancem desempenho temporal superior, oferecendo um caminho prático e escalável para uma IA verdadeiramente consciente do tempo. Para promover mais pesquisas, também lançamos o Time-Bench, um conjunto de dados de raciocínio temporal de grande escala e multi-tarefa derivado de 10 anos de dados de notícias, e nossa série de checkpoints do Time-R1.
English
Large Language Models (LLMs) demonstrate impressive capabilities but lack robust temporal intelligence, struggling to integrate reasoning about the past with predictions and plausible generations of the future. Meanwhile, existing methods typically target isolated temporal skills, such as question answering about past events or basic forecasting, and exhibit poor generalization, particularly when dealing with events beyond their knowledge cutoff or requiring creative foresight. To address these limitations, we introduce Time-R1, the first framework to endow a moderate-sized (3B-parameter) LLM with comprehensive temporal abilities: understanding, prediction, and creative generation. Our approach features a novel three-stage development path; the first two constitute a reinforcement learning (RL) curriculum driven by a meticulously designed dynamic rule-based reward system. This framework progressively builds (1) foundational temporal understanding and logical event-time mappings from historical data, (2) future event prediction skills for events beyond its knowledge cutoff, and finally (3) enables remarkable generalization to creative future scenario generation without any fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1, on highly challenging future event prediction and creative scenario generation benchmarks. This work provides strong evidence that thoughtfully engineered, progressive RL fine-tuning allows smaller, efficient models to achieve superior temporal performance, offering a practical and scalable path towards truly time-aware AI. To foster further research, we also release Time-Bench, a large-scale multi-task temporal reasoning dataset derived from 10 years of news data, and our series of Time-R1 checkpoints.
PDF153May 26, 2025