Memory-T1: Apprendimento per Rinforzo per il Ragionamento Temporale in Agenti Multi-sessione
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
Autori: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
Abstract
Il ragionamento temporale su dialoghi lunghi e multi-sessione è una capacità critica per gli agenti conversazionali. Tuttavia, lavori esistenti e il nostro studio pilota hanno dimostrato che quando le cronologie dei dialoghi aumentano in lunghezza e accumulano rumore, i modelli a contesto lungo attuali faticano a identificare con precisione le informazioni temporalmente pertinenti, compromettendo significativamente le prestazioni di ragionamento. Per affrontare questo problema, introduciamo Memory-T1, un framework che apprende una politica di selezione della memoria consapevole del tempo utilizzando l'apprendimento per rinforzo (RL). Esso impiega una strategia coarse-to-fine, prima riducendo la cronologia del dialogo in un insieme di candidati mediante filtri temporali e di rilevanza, seguita da un agente RL che seleziona le sessioni di evidenza precise. L'addestramento RL è guidato da una funzione di ricompensa multi-livello che ottimizza (i) l'accuratezza della risposta, (ii) il grounding delle evidenze e (iii) la coerenza temporale. In particolare, la ricompensa per la coerenza temporale fornisce un segnale denso valutando l'allineamento con l'ambito temporale della query sia a livello di sessione (prossimità cronologica) che a livello di enunciato (fedeltà cronologica), consentendo all'agente di risolvere ambiguità cronologiche sottili. Sul benchmark Time-Dialog, Memory-T1 spinge un modello da 7B a un punteggio complessivo del 67,0%, stabilendo una nuova prestazione state-of-the-art per i modelli open-source e superando un baseline da 14B del 10,2%. Studi di ablazione mostrano che le ricompense per la coerenza temporale e il grounding delle evidenze contribuiscono congiuntamente a un guadagno prestazionale del 15,0%. Inoltre, Memory-T1 mantiene la robustezza fino a 128k token, dove i modelli baseline collassano, dimostrando efficacia contro il rumore in estese cronologie di dialoghi. Il codice e i dataset sono pubblicamente disponibili su https://github.com/Elvin-Yiming-Du/Memory-T1/.
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/