Memory-T1: 다중 세션 에이전트를 위한 시간적 추론 강화 학습
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
저자: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
초록
장기적이고 다중 세션 대화에 대한 시간적 추론은 대화형 에이전트의 핵심 능력입니다. 그러나 기존 연구와 우리의 파일럿 연구에 따르면, 대화 기록이 길어지고 노이즈가 누적됨에 따라 현재의 장문 컨텍스트 모델들은 시간적으로 관련성 있는 정보를 정확히 식별하는 데 어려움을 겪어 추론 성능이 크게 저하됩니다. 이를 해결하기 위해 우리는 강화 학습을 사용하여 시간 인식 메모리 선택 정책을 학습하는 Memory-T1 프레임워크를 소개합니다. 이 프레임워크는 coarse-to-fine 전략을 채택하여, 먼저 시간적 필터와 관련성 필터를 사용해 대화 기록을 후보 집합으로 정제한 다음, 정확한 증거 세션을 선택하는 RL 에이전트를 적용합니다. RL 훈련은 (i) 응답 정확도, (ii) 증거 근거, (iii) 시간적 일관성을 최적화하는 다단계 보상 함수에 의해 지도됩니다. 특히 시간적 일관성 보상은 세션 수준(시간적 근접성)과 발화 수준(시간적 정확성)에서 질의 시간 범위와의 정렬을 평가하여 조밀한 신호를 제공함으로써, 에이전트가 미묘한 시간적 모호성을 해결할 수 있게 합니다. Time-Dialog 벤치마크에서 Memory-T1은 7B 모델을 전체 점수 67.0%로 향상시켜 오픈소스 모델 중 새로운 최첨단 성능을确立했으며, 14B 기준 모델을 10.2% 앞섰습니다. ablation 연구는 시간적 일관성과 증거 근거 보상이 함께 15.0%의 성능 향상에 기여함을 보여줍니다. 더욱이 Memory-T1은 기준 모델들이 성능이 급락하는 128k 토큰까지 견고성을 유지하며, 방대한 대화 기록 내 노이즈에 대한 효과성을 입증했습니다. 코드와 데이터셋은 https://github.com/Elvin-Yiming-Du/Memory-T1/에서 공개되어 있습니다.
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/