Repensando Como Lembrar: Além de Fatos Atômicos na Memória de Agentes LLM ao Longo da Vida

Resumo

Para permitir uma interação confiável de longo prazo, agentes de LLM necessitam de um sistema de memória que possa armazenar fielmente, recuperar eficientemente e raciocinar profundamente sobre o histórico acumulado de diálogos. A maioria dos métodos existentes adota um paradigma baseado em fatos extraídos: prompts estáticos artesanais comprimem diálogos brutos em fatos atômicos, que são então armazenados, combinados e injetados no raciocínio downstream. No entanto, tais projetos centrados em fatos inevitavelmente descartam detalhes finos dos diálogos originais e não conseguem suportar raciocínio profundo sobre fatos isolados dispersos. Além disso, prompts estáticos não conseguem manter granularidade de extração consistente em diversos estilos de diálogo. Para abordar essas limitações, propomos o TriMem, que mantém três granularidades de representação coexistentes: segmentos brutos de diálogo ancorados por identificadores de fonte para fidelidade de armazenamento, fatos atômicos extraídos para recuperação eficiente de memória e perfis sintetizados que agregam fatos dispersos em uma compreensão semântica holística para raciocínio profundo. Adotamos ainda a otimização de prompts baseada em TextGrad, que refina iterativamente os prompts de extração e perfil por meio de feedback da qualidade das respostas, alcançando evolução ao longo da vida sem qualquer atualização de parâmetros. Experimentos extensos nos benchmarks LoCoMo e PerLTQA com múltiplos backbones de LLM demonstram que o TriMem supera consistentemente fortes linhas de base de memória. O código está disponível em https://TMLR-TriMem.github.io .

English

To enable reliable long-term interaction, LLM agents require a memory system that can faithfully store, efficiently retrieve, and deeply reason over accumulated dialogue history. Most existing methods adopt an extracted fact based paradigm: handcrafted static prompts compress raw dialogues into atomic facts, which are then stored, matched, and injected into downstream reasoning. Nevertheless, such fact-centric designs inevitably discard fine-grained details in original dialogues and fail to support deep reasoning over scattered isolated facts. Moreover, static prompts cannot maintain consistent extraction granularity across diverse dialogue styles. To address these limitations, we propose TriMem, which maintains three coexisting representation granularities, including raw dialogue segments anchored by source identifiers for storage fidelity, extracted atomic facts for efficient memory retrieval, synthesized profiles that aggregate dispersed facts into holistic semantic understanding for deep reasoning. We further adopt TextGrad-based prompt optimization, which iteratively refines extraction and profiling prompts via response quality feedback, achieving lifelong evolution without any parameter updating. Extensive experiments on LoCoMo and PerLTQA across multiple LLM backbones demonstrate that TriMem consistently outperforms strong memory baselines. The code is available at https://TMLR-TriMem.github.io .