ChatPaper.aiChatPaper

Memory-T1: マルチセッションエージェントにおける時間推論のための強化学習

Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

December 23, 2025
著者: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI

要旨

長時間にわたるマルチセッション対話における時間的推論は、対話エージェントにとって極めて重要な能力である。しかし、既存の研究および我々の予備調査により、対話履歴が長くなりノイズが蓄積するにつれて、現在の長文脈モデルは時間的に適切な情報を正確に特定することが困難になり、推論性能が大幅に損なわれることが明らかになっている。この問題に対処するため、我々は強化学習を用いて時間認識メモリ選択ポリシーを学習するフレームワーク、Memory-T1を提案する。本フレームワークは粗い選択から細かい選択への戦略を採用し、まず時間的フィルタと関連性フィルタを用いて対話履歴を候補セットに刈り込み、その後RLエージェントが精密な証拠セッションを選択する。RL学習は、 (i) 回答精度、(ii) 証拠の根拠付け、(iii) 時間的一貫性を最適化するマルチレベル報酬関数によって導かれる。特に、時間的一貫性報酬は、セッションレベル(時間的近接性)と発話レベル(時間的忠実度)の両方でクエリの時間範囲との整合性を評価することにより、エージェントが微妙な時間的曖昧性を解決することを可能にする密な信号を提供する。Time-Dialogベンチマークにおいて、Memory-T1は7Bモデルを総合スコア67.0%に押し上げ、オープンソースモデルとして新たなstate-of-the-art性能を確立し、14Bベースラインを10.2%上回った。アブレーション研究は、時間的一貫性と証拠の根拠付けの報酬が共同で15.0%の性能向上に寄与することを示している。さらに、Memory-T1は128kトークンまでロバスト性を維持し(ベースラインモデルは性能が大幅に低下する)、広範な対話履歴におけるノイズに対する有効性を証明している。コードとデータセットはhttps://github.com/Elvin-Yiming-Du/Memory-T1/ で公開されている。
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/
PDF21December 25, 2025