Repensando cómo recordar: Más allá de los hechos atómicos en la memoria de agentes LLM a lo largo de la vida

Resumen

Para habilitar una interacción confiable a largo plazo, los agentes basados en modelos de lenguaje grande requieren un sistema de memoria que pueda almacenar fielmente, recuperar eficientemente y razonar profundamente sobre el historial de diálogos acumulado. La mayoría de los métodos existentes adoptan un paradigma basado en hechos extraídos: prompts estáticos elaborados manualmente comprimen los diálogos originales en hechos atómicos, que luego se almacenan, emparejan e inyectan en el razonamiento posterior. Sin embargo, estos diseños centrados en hechos inevitablemente descartan detalles finos de los diálogos originales y no logran respaldar un razonamiento profundo sobre hechos aislados dispersos. Además, los prompts estáticos no pueden mantener una granularidad de extracción consistente en diversos estilos de diálogo. Para abordar estas limitaciones, proponemos TriMem, que mantiene tres granularidades de representación coexistentes: segmentos de diálogo sin procesar anclados por identificadores de fuente para la fidelidad de almacenamiento, hechos atómicos extraídos para la recuperación eficiente de memoria, y perfiles sintetizados que agregan hechos dispersos en una comprensión semántica holística para el razonamiento profundo. Además, adoptamos la optimización de prompts basada en TextGrad, que refina iterativamente los prompts de extracción y creación de perfiles mediante la retroalimentación de la calidad de las respuestas, logrando una evolución permanente sin necesidad de actualizar parámetros. Experimentos exhaustivos en LoCoMo y PerLTQA con múltiples backbones de modelos de lenguaje grande demuestran que TriMem supera consistentemente a las líneas base de memoria sólidas. El código está disponible en https://TMLR-TriMem.github.io.

English

To enable reliable long-term interaction, LLM agents require a memory system that can faithfully store, efficiently retrieve, and deeply reason over accumulated dialogue history. Most existing methods adopt an extracted fact based paradigm: handcrafted static prompts compress raw dialogues into atomic facts, which are then stored, matched, and injected into downstream reasoning. Nevertheless, such fact-centric designs inevitably discard fine-grained details in original dialogues and fail to support deep reasoning over scattered isolated facts. Moreover, static prompts cannot maintain consistent extraction granularity across diverse dialogue styles. To address these limitations, we propose TriMem, which maintains three coexisting representation granularities, including raw dialogue segments anchored by source identifiers for storage fidelity, extracted atomic facts for efficient memory retrieval, synthesized profiles that aggregate dispersed facts into holistic semantic understanding for deep reasoning. We further adopt TextGrad-based prompt optimization, which iteratively refines extraction and profiling prompts via response quality feedback, achieving lifelong evolution without any parameter updating. Extensive experiments on LoCoMo and PerLTQA across multiple LLM backbones demonstrate that TriMem consistently outperforms strong memory baselines. The code is available at https://TMLR-TriMem.github.io .