Memory-T1: Обучение с подкреплением для темпоральных рассуждений в многосессионных агентах
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
Авторы: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
Аннотация
Временное рассуждение в длинных многосессионных диалогах является критически важной способностью для разговорных агентов. Однако существующие работы и наше пилотное исследование показывают, что по мере увеличения длины истории диалогов и накопления шума современные модели с длинным контекстом с трудом точно идентифицируют временно релевантную информацию, что значительно ухудшает качество рассуждений. Для решения этой проблемы мы представляем Memory-T1 — фреймворк, который изучает учитывающую время политику выбора памяти с помощью обучения с подкреплением (RL). Он использует стратегию «от грубого к точному»: сначала история диалога сокращается до набора кандидатов с использованием временных и релевантностных фильтров, после чего RL-агент выбирает точные сессии-доказательства. Обучение с подкреплением направляется многоуровневой функцией вознаграждения, оптимизирующей (i) точность ответа, (ii) обоснованность доказательств и (iii) временную согласованность. В частности, вознаграждение за временную согласованность обеспечивает плотный сигнал, оценивая соответствие временному охвату запроса как на уровне сессии (хронологическая близость), так и на уровне высказывания (хронологическая достоверность), что позволяет агенту разрешать тонкие хронологические неоднозначности. На бенчмарке Time-Dialog Memory-T1 повышает общий балл модели на 7B параметров до 67.0%, устанавливая новое состояние искусства для открытых моделей и превосходя базовую модель на 14B параметров на 10.2%. Абляционные исследования показывают, что вознаграждения за временную согласованность и обоснованность доказательств совместно обеспечивают прирост производительности в 15.0%. Более того, Memory-T1 сохраняет устойчивость до 128 тыс. токенов, где базовые модели терпят неудачу, доказывая эффективность против шума в обширных историях диалогов. Код и наборы данных общедоступны по адресу https://github.com/Elvin-Yiming-Du/Memory-T1/.
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/