Memoria-T1: Aprendizaje por Refuerzo para el Razonamiento Temporal en Agentes Multisesión
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
December 23, 2025
Autores: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
cs.AI
Resumen
El razonamiento temporal sobre diálogos largos y multi-sesión es una capacidad crítica para los agentes conversacionales. Sin embargo, trabajos existentes y nuestro estudio piloto han demostrado que, a medida que los historiales de diálogo aumentan en longitud y acumulan ruido, los modelos actuales de contexto largo tienen dificultades para identificar con precisión la información temporalmente pertinente, lo que perjudica significativamente el rendimiento del razonamiento. Para abordar esto, presentamos Memory-T1, un marco que aprende una política de selección de memoria consciente del tiempo utilizando aprendizaje por refuerzo (RL). Emplea una estrategia de coarse-to-fine, primero podando el historial de diálogo en un conjunto de candidatos utilizando filtros temporales y de relevancia, seguido de un agente de RL que selecciona las sesiones de evidencia precisas. El entrenamiento de RL está guiado por una función de recompensa multinivel que optimiza (i) la precisión de la respuesta, (ii) el fundamento de la evidencia y (iii) la coherencia temporal. En particular, la recompensa de coherencia temporal proporciona una señal densa evaluando la alineación con el alcance temporal de la consulta tanto a nivel de sesión (proximidad cronológica) como a nivel de enunciado (fidelidad cronológica), permitiendo al agente resolver ambigüedades cronológicas sutiles. En el benchmark Time-Dialog, Memory-T1 impulsa un modelo de 7B a una puntuación general del 67.0 %, estableciendo un nuevo estado del arte para modelos de código abierto y superando a una línea base de 14B en un 10.2 %. Los estudios de ablación muestran que las recompensas de coherencia temporal y fundamento de la evidencia contribuyen conjuntamente a una ganancia de rendimiento del 15.0 %. Además, Memory-T1 mantiene la robustez hasta 128k tokens, donde los modelos base colapsan, demostrando su eficacia contra el ruido en historiales de diálogo extensos. El código y los conjuntos de datos están disponibles públicamente en https://github.com/Elvin-Yiming-Du/Memory-T1/
English
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/