Memory-T1: Verstärkendes Lernen für temporale Schlussfolgerungen in Multi-Session-Agenten
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
papers.authors: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
papers.abstract
Temporales Schließen über lange, mehrteilige Dialoge hinweg ist eine entscheidende Fähigkeit für Konversationsagenten. Bestehende Arbeiten und unsere Vorstudie zeigen jedoch, dass aktuelle Modelle für lange Kontexte Schwierigkeiten haben, zeitlich relevante Informationen genau zu identifizieren, wenn Dialogverläufe länger werden und Rauschen akkumulieren, was die Reasoning-Leistung erheblich beeinträchtigt. Um dies zu adressieren, stellen wir Memory-T1 vor, ein Framework, das eine zeit-sensitive Speicher-Auswahlpolitik mittels Reinforcement Learning (RL) erlernt. Es verwendet eine Grob-zu-Fein-Strategie, die zunächst den Dialogverlauf durch temporale und Relevanzfilter auf einen Kandidatensatz reduziert, gefolgt von einem RL-Agenten, der die präzisen Evidenz-Sitzungen auswählt. Das RL-Training wird durch eine mehrstufige Belohnungsfunktion gesteuert, die (i) die Antwortgenauigkeit, (ii) die Evidenzverankerung und (iii) die temporale Konsistenz optimiert. Insbesondere liefert die Belohnung für temporale Konsistenz ein dichtes Signal, indem sie die Übereinstimmung mit dem zeitlichen Abfragebereich sowohl auf Sitzungsebene (chronologische Nähe) als auch auf Äußerungsebene (chronologische Treue) bewertet, was dem Agenten ermöglicht, subtile chronologische Unklarheiten aufzulösen. Auf dem Time-Dialog-Benchmark steigert Memory-T1 ein 7B-Modell auf eine Gesamtpunktzahl von 67,0 %, was einen neuen State-of-the-Art für Open-Source-Modelle darstellt und ein 14B-Basismodell um 10,2 % übertrifft. Ablationsstudien zeigen, dass die Belohnungen für temporale Konsistenz und Evidenzverankerung gemeinsam zu einem Leistungsgewinn von 15,0 % beitragen. Darüber hinaus bleibt Memory-T1 bis zu 128k Tokens robust, bei denen Basismodelle versagen, und beweist so seine Wirksamkeit gegen Rauschen in umfangreichen Dialogverläufen. Der Code und die Datensätze sind öffentlich verfügbar unter https://github.com/Elvin-Yiming-Du/Memory-T1/.
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/