Het onthouden heroverwogen: Voorbij atomaire feiten in levenslang LLM-agentgeheugen

Samenvatting

Om betrouwbare langetermijninteractie mogelijk te maken, hebben LLM-agenten een geheugensysteem nodig dat de opgebouwde dialooggeschiedenis getrouw kan opslaan, efficiënt kan ophalen en diepgaand kan analyseren. De meeste bestaande methoden hanteren een op geëxtraheerde feiten gebaseerd paradigma: handgemaakte statische prompts comprimeren ruwe dialogen tot atomaire feiten, die vervolgens worden opgeslagen, gematcht en ingebracht in stroomafwaartse redenering. Dergelijke feitgerichte ontwerpen verwaarlozen echter onvermijdelijk fijnmazige details in oorspronkelijke dialogen en kunnen geen diepgaande redenering ondersteunen over verspreide geïsoleerde feiten. Bovendien kunnen statische prompts geen consistente extractiegranulariteit handhaven bij uiteenlopende dialoogstijlen. Om deze beperkingen aan te pakken, stellen we TriMem voor, dat drie naast elkaar bestaande representatiegranulariteiten onderhoudt: ruwe dialoogsegmenten verankerd door bronidentificatoren voor opslaggetrouwheid, geëxtraheerde atomaire feiten voor efficiënt geheugen ophalen, en gesynthetiseerde profielen die verspreide feiten samenvoegen tot holistisch semantisch begrip voor diepgaande redenering. Verder passen we op TextGrad gebaseerde promptoptimalisatie toe, die iteratief extractie- en profileringsprompts verfijnt via kwaliteitsfeedback van antwoorden, wat levenslange evolutie mogelijk maakt zonder enige parameterupdate. Uitgebreide experimenten op LoCoMo en PerLTQA met meerdere LLM-backbones tonen aan dat TriMem consequent beter presteert dan sterke geheugenbaselines. De code is beschikbaar op https://TMLR-TriMem.github.io .

English

To enable reliable long-term interaction, LLM agents require a memory system that can faithfully store, efficiently retrieve, and deeply reason over accumulated dialogue history. Most existing methods adopt an extracted fact based paradigm: handcrafted static prompts compress raw dialogues into atomic facts, which are then stored, matched, and injected into downstream reasoning. Nevertheless, such fact-centric designs inevitably discard fine-grained details in original dialogues and fail to support deep reasoning over scattered isolated facts. Moreover, static prompts cannot maintain consistent extraction granularity across diverse dialogue styles. To address these limitations, we propose TriMem, which maintains three coexisting representation granularities, including raw dialogue segments anchored by source identifiers for storage fidelity, extracted atomic facts for efficient memory retrieval, synthesized profiles that aggregate dispersed facts into holistic semantic understanding for deep reasoning. We further adopt TextGrad-based prompt optimization, which iteratively refines extraction and profiling prompts via response quality feedback, achieving lifelong evolution without any parameter updating. Extensive experiments on LoCoMo and PerLTQA across multiple LLM backbones demonstrate that TriMem consistently outperforms strong memory baselines. The code is available at https://TMLR-TriMem.github.io .