Mem0 : Développer des agents IA prêts pour la production avec une mémoire à long terme évolutive
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
April 28, 2025
Auteurs: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré une remarquable capacité à générer des réponses contextuellement cohérentes, mais leurs fenêtres de contexte fixes posent des défis fondamentaux pour maintenir la cohérence dans des dialogues prolongés sur plusieurs sessions. Nous présentons Mem0, une architecture centrée sur la mémoire et évolutive, qui résout ce problème en extrayant, consolidant et récupérant dynamiquement les informations saillantes des conversations en cours. Sur cette base, nous proposons également une variante améliorée qui exploite des représentations de mémoire basées sur des graphes pour capturer les structures relationnelles complexes entre les éléments conversationnels. À travers des évaluations approfondies sur le benchmark LOCOMO, nous comparons systématiquement nos approches à six catégories de références : (i) les systèmes établis augmentés de mémoire, (ii) la génération augmentée par récupération (RAG) avec différentes tailles de segments et valeurs de k, (iii) une approche de contexte complet qui traite l'intégralité de l'historique de la conversation, (iv) une solution de mémoire open-source, (v) un système de modèle propriétaire, et (vi) une plateforme dédiée à la gestion de la mémoire. Les résultats empiriques montrent que nos méthodes surpassent systématiquement tous les systèmes de mémoire existants dans quatre catégories de questions : à saut unique, temporelles, à sauts multiples et ouvertes. Notamment, Mem0 obtient une amélioration relative de 26 % sur la métrique LLM-as-a-Judge par rapport à OpenAI, tandis que Mem0 avec mémoire graphique atteint un score global environ 2 % plus élevé que la configuration de base. Au-delà des gains en précision, nous réduisons également de manière significative la surcharge computationnelle par rapport à la méthode de contexte complet. En particulier, Mem0 atteint une latence p95 inférieure de 91 % et économise plus de 90 % des coûts en tokens, offrant un équilibre convaincant entre des capacités de raisonnement avancées et les contraintes pratiques de déploiement. Nos résultats mettent en lumière le rôle crucial des mécanismes de mémoire structurée et persistante pour la cohérence conversationnelle à long terme, ouvrant la voie à des agents IA pilotés par des LLMs plus fiables et efficaces.
English
Large Language Models (LLMs) have demonstrated remarkable prowess in
generating contextually coherent responses, yet their fixed context windows
pose fundamental challenges for maintaining consistency over prolonged
multi-session dialogues. We introduce Mem0, a scalable memory-centric
architecture that addresses this issue by dynamically extracting,
consolidating, and retrieving salient information from ongoing conversations.
Building on this foundation, we further propose an enhanced variant that
leverages graph-based memory representations to capture complex relational
structures among conversational elements. Through comprehensive evaluations on
LOCOMO benchmark, we systematically compare our approaches against six baseline
categories: (i) established memory-augmented systems, (ii) retrieval-augmented
generation (RAG) with varying chunk sizes and k-values, (iii) a full-context
approach that processes the entire conversation history, (iv) an open-source
memory solution, (v) a proprietary model system, and (vi) a dedicated memory
management platform. Empirical results show that our methods consistently
outperform all existing memory systems across four question categories:
single-hop, temporal, multi-hop, and open-domain. Notably, Mem0 achieves 26%
relative improvements in the LLM-as-a-Judge metric over OpenAI, while Mem0 with
graph memory achieves around 2% higher overall score than the base
configuration. Beyond accuracy gains, we also markedly reduce computational
overhead compared to full-context method. In particular, Mem0 attains a 91%
lower p95 latency and saves more than 90% token cost, offering a compelling
balance between advanced reasoning capabilities and practical deployment
constraints. Our findings highlight critical role of structured, persistent
memory mechanisms for long-term conversational coherence, paving the way for
more reliable and efficient LLM-driven AI agents.Summary
AI-Generated Summary