Mémoire-T1 : Apprentissage par Renforcement pour le Raisonnement Temporel dans les Agents Multi-sessions
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
papers.authors: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
papers.abstract
Le raisonnement temporel sur des dialogues longs et multi-sessions est une capacité essentielle pour les agents conversationnels. Cependant, les travaux existants et notre étude pilote montrent qu'à mesure que les historiques de dialogue s'allongent et accumulent du bruit, les modèles à contexte long actuels peinent à identifier précisément les informations temporellement pertinentes, ce qui altère significativement les performances de raisonnement. Pour résoudre ce problème, nous présentons Memory-T1, un cadre d'apprentissage qui acquiert une politique de sélection de mémoire sensible au temps en utilisant l'apprentissage par renforcement (RL). Il emploie une stratégie grossière-puis-fine, élaguant d'abord l'historique du dialogue en un ensemble de candidats à l'aide de filtres temporels et de pertinence, puis un agent RL sélectionne les sessions de preuves précises. L'entraînement RL est guidé par une fonction de récompense multi-niveaux optimisant (i) la précision de la réponse, (ii) l'ancrage des preuves, et (iii) la cohérence temporelle. En particulier, la récompense de cohérence temporelle fournit un signal dense en évaluant l'alignement avec la portée temporelle de la requête au niveau de la session (proximité chronologique) et au niveau de l'énoncé (fidélité chronologique), permettant à l'agent de résoudre des ambiguïtés chronologiques subtiles. Sur le benchmark Time-Dialog, Memory-T1 propulse un modèle de 7B à un score global de 67,0 %, établissant une nouvelle performance de pointe pour les modèles open source et surpassant un modèle de référence de 14B de 10,2 %. Les études d'ablation montrent que les récompenses de cohérence temporelle et d'ancrage des preuves contribuent conjointement à un gain de performance de 15,0 %. De plus, Memory-T1 maintient sa robustesse jusqu'à 128k tokens, seuil auquel les modèles de référence s'effondrent, prouvant son efficacité contre le bruit dans les historiques de dialogue étendus. Le code et les jeux de données sont disponibles publiquement à l'adresse https://github.com/Elvin-Yiming-Du/Memory-T1/
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/