SimpleMem : Une mémoire perpétuelle efficace pour les agents de grands modèles de langage

Résumé

Pour assurer des interactions fiables à long terme dans des environnements complexes, les agents LLM nécessitent des systèmes de mémoire capables de gérer efficacement les expériences historiques. Les approches existantes conservent soit l'intégralité des historiques d'interaction par extension passive du contexte, entraînant une redondance substantielle, soit reposent sur un raisonnement itératif pour filtrer le bruit, ce qui génère des coûts en tokens élevés. Pour relever ce défi, nous présentons SimpleMem, un cadre de mémoire efficace fondé sur la compression sémantique sans perte. Nous proposons un pipeline en trois étapes conçu pour maximiser la densité informationnelle et l'utilisation des tokens : (1) la Compression Structurée Sémantique, qui applique un filtrage tenant compte de l'entropie pour distiller les interactions non structurées en unités de mémoire compactes indexées multi-vues ; (2) la Consolidation Récurrente de Mémoire, un processus asynchrone qui intègre les unités connexes en représentations abstraites de plus haut niveau pour réduire la redondance ; et (3) la Récupération Adaptative Sensible à la Requête, qui ajuste dynamiquement la portée de la récupération en fonction de la complexité de la requête pour construire un contexte précis de manière efficace. Les expériences sur des jeux de données de référence montrent que notre méthode surpasse constamment les approches de base en précision, efficacité de récupération et coût d'inférence, obtenant une amélioration moyenne du F1 de 26,4 % tout en réduisant la consommation de tokens lors de l'inférence jusqu'à 30 fois, démontrant un équilibre supérieur entre performance et efficacité. Le code est disponible à l'adresse https://github.com/aiming-lab/SimpleMem.

English

To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) Recursive Memory Consolidation, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) Adaptive Query-Aware Retrieval, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.

SimpleMem : Une mémoire perpétuelle efficace pour les agents de grands modèles de langage

SimpleMem: Efficient Lifelong Memory for LLM Agents

Résumé

Support