Memória-T1: Aprendizado por Reforço para Raciocínio Temporal em Agentes Multissessão
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
Autores: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
Resumo
O raciocínio temporal em diálogos longos e multi-sessão é uma capacidade crítica para agentes conversacionais. No entanto, trabalhos existentes e nosso estudo piloto mostraram que, à medida que os históricos de diálogo aumentam em extensão e acumulam ruído, os modelos atuais de contexto longo lutam para identificar informações temporalmente pertinentes com precisão, prejudicando significativamente o desempenho do raciocínio. Para resolver isso, apresentamos o Memory-T1, uma estrutura que aprende uma política de seleção de memória consciente do tempo usando aprendizado por reforço (RL). Ele emprega uma estratégia do geral para o específico, primeiro podando o histórico de diálogo em um conjunto de candidatos usando filtros temporais e de relevância, seguido por um agente de RL que seleciona as sessões de evidência precisas. O treinamento de RL é orientado por uma função de recompensa multinível que otimiza (i) a precisão da resposta, (ii) o embasamento em evidências e (iii) a consistência temporal. Em particular, a recompensa de consistência temporal fornece um sinal denso ao avaliar o alinhamento com o escopo temporal da consulta tanto no nível da sessão (proximidade cronológica) quanto no nível do enunciado (fidelidade cronológica), permitindo que o agente resolva ambiguidades cronológicas sutis. No benchmark Time-Dialog, o Memory-T1 impulsiona um modelo de 7B para uma pontuação geral de 67,0%, estabelecendo um novo estado da arte para modelos de código aberto e superando uma linha de base de 14B em 10,2%. Estudos de ablação mostram que as recompensas de consistência temporal e de embasamento em evidências contribuem conjuntamente para um ganho de desempenho de 15,0%. Além disso, o Memory-T1 mantém robustez até 128 mil tokens, onde os modelos de base colapsam, comprovando a eficácia contra o ruído em históricos de diálogo extensos. O código e os conjuntos de dados estão publicamente disponíveis em https://github.com/Elvin-Yiming-Du/Memory-T1/.
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/