Repenser la façon de se souvenir : au-delà des faits atomiques dans la mémoire à long terme des agents LLM

Résumé

Pour permettre une interaction fiable à long terme, les agents LLM nécessitent un système de mémoire capable de stocker fidèlement, de récupérer efficacement et de raisonner en profondeur sur l'historique des dialogues accumulés. La plupart des méthodes existantes adoptent un paradigme basé sur des faits extraits : des prompts statiques conçus manuellement compressent les dialogues bruts en faits atomiques, qui sont ensuite stockés, mis en correspondance et injectés dans le raisonnement en aval. Néanmoins, ces conceptions centrées sur les faits écartent inévitablement les détails fins des dialogues originaux et ne permettent pas un raisonnement approfondi sur des faits isolés et dispersés. De plus, les prompts statiques ne parviennent pas à maintenir une granularité d'extraction cohérente entre différents styles de dialogue. Pour remédier à ces limitations, nous proposons TriMem, qui maintient trois granularités de représentation coexistantes : des segments de dialogue bruts ancrés par des identifiants de source pour la fidélité du stockage, des faits atomiques extraits pour une récupération efficace en mémoire, et des profils synthétisés qui regroupent des faits dispersés en une compréhension sémantique holistique pour un raisonnement approfondi. Nous adoptons en outre une optimisation des prompts basée sur TextGrad, qui affine itérativement les prompts d'extraction et de profilage via un retour sur la qualité des réponses, assurant une évolution continue sans mise à jour des paramètres. Des expériences approfondies sur LoCoMo et PerLTQA avec plusieurs architectures de LLM démontrent que TriMem surpasse systématiquement les bases de référence mémoire solides. Le code est disponible à l'adresse https://TMLR-TriMem.github.io.

English

To enable reliable long-term interaction, LLM agents require a memory system that can faithfully store, efficiently retrieve, and deeply reason over accumulated dialogue history. Most existing methods adopt an extracted fact based paradigm: handcrafted static prompts compress raw dialogues into atomic facts, which are then stored, matched, and injected into downstream reasoning. Nevertheless, such fact-centric designs inevitably discard fine-grained details in original dialogues and fail to support deep reasoning over scattered isolated facts. Moreover, static prompts cannot maintain consistent extraction granularity across diverse dialogue styles. To address these limitations, we propose TriMem, which maintains three coexisting representation granularities, including raw dialogue segments anchored by source identifiers for storage fidelity, extracted atomic facts for efficient memory retrieval, synthesized profiles that aggregate dispersed facts into holistic semantic understanding for deep reasoning. We further adopt TextGrad-based prompt optimization, which iteratively refines extraction and profiling prompts via response quality feedback, achieving lifelong evolution without any parameter updating. Extensive experiments on LoCoMo and PerLTQA across multiple LLM backbones demonstrate that TriMem consistently outperforms strong memory baselines. The code is available at https://TMLR-TriMem.github.io .