Memory-T1: Reinforcement Learning voor Temporeel Redeneren in Multi-sessie Agenten
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
Auteurs: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
Samenvatting
Tijdredenering over lange, meersessie-dialogen is een cruciale vaardigheid voor conversationele agents. Bestaande werken en onze pilotstudie tonen echter aan dat, naarmate dialooggeschiedenissen langer worden en ruis accumuleren, huidige long-context modellen moeite hebben om temporeel relevante informatie accuraat te identificeren, wat de redeneerprestatie aanzienlijk schaadt. Om dit aan te pakken, introduceren we Memory-T1, een raamwerk dat een tijdbewust geheugenselectiebeleid leert met behulp van reinforcement learning (RL). Het hanteert een coarse-to-fine strategie: eerst wordt de dialooggeschiedenis uitgedund tot een kandidaatset met behulp van temporele en relevantiefilters, gevolgd door een RL-agent die de precieze bewijssessies selecteert. De RL-training wordt geleid door een meerlagige beloningsfunctie die optimaliseert voor (i) antwoordnauwkeurigheid, (ii) onderbouwing met bewijs, en (iii) temporele consistentie. In het bijzonder biedt de beloning voor temporele consistentie een dicht signaal door de afstemming met het temporele bereik van de query te evalueren op zowel sessieniveau (chronologische nabijheid) als op uitingniveau (chronologische trouw), waardoor de agent subtiele chronologische ambiguïteiten kan oplossen. Op de Time-Dialog benchmark tilt Memory-T1 een 7B-model naar een overall score van 67.0%, wat een nieuwe state-of-the-art prestatie voor open-source modellen vestigt en een 14B baseline met 10.2% overtreft. Ablatiestudies tonen aan dat beloningen voor temporele consistentie en onderbouwing gezamenlijk bijdragen aan een prestatieverbetering van 15.0%. Bovendien handhaaft Memory-T1 robuustheid tot 128k tokens, waar baseline-modellen ineenstorten, wat de effectiviteit aantoont tegen ruis in uitgebreide dialooggeschiedenissen. De code en datasets zijn openbaar beschikbaar op https://github.com/Elvin-Yiming-Du/Memory-T1/.
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/