Mem0: Construyendo agentes de IA listos para producción con memoria a largo plazo escalable
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
April 28, 2025
Autores: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado una notable capacidad para generar respuestas contextualmente coherentes, sin embargo, sus ventanas de contexto fijas plantean desafíos fundamentales para mantener la consistencia en diálogos prolongados de múltiples sesiones. Presentamos Mem0, una arquitectura centrada en la memoria escalable que aborda este problema mediante la extracción, consolidación y recuperación dinámica de información relevante de conversaciones en curso. Sobre esta base, proponemos además una variante mejorada que aprovecha representaciones de memoria basadas en grafos para capturar estructuras relacionales complejas entre elementos conversacionales. A través de evaluaciones exhaustivas en el benchmark LOCOMO, comparamos sistemáticamente nuestros enfoques con seis categorías de referencia: (i) sistemas establecidos aumentados con memoria, (ii) generación aumentada por recuperación (RAG) con diferentes tamaños de fragmentos y valores de k, (iii) un enfoque de contexto completo que procesa todo el historial de la conversación, (iv) una solución de memoria de código abierto, (v) un sistema de modelo propietario, y (vi) una plataforma dedicada a la gestión de memoria. Los resultados empíricos muestran que nuestros métodos superan consistentemente a todos los sistemas de memoria existentes en cuatro categorías de preguntas: de un solo salto, temporales, de múltiples saltos y de dominio abierto. Notablemente, Mem0 logra mejoras relativas del 26% en la métrica LLM-as-a-Judge sobre OpenAI, mientras que Mem0 con memoria de grafos alcanza un puntaje general aproximadamente un 2% más alto que la configuración base. Más allá de las ganancias en precisión, también reducimos significativamente la sobrecarga computacional en comparación con el método de contexto completo. En particular, Mem0 alcanza una latencia p95 un 91% menor y ahorra más del 90% en costos de tokens, ofreciendo un equilibrio convincente entre capacidades avanzadas de razonamiento y restricciones prácticas de implementación. Nuestros hallazgos resaltan el papel crítico de los mecanismos de memoria estructurada y persistente para la coherencia conversacional a largo plazo, allanando el camino para agentes de IA impulsados por LLMs más confiables y eficientes.
English
Large Language Models (LLMs) have demonstrated remarkable prowess in
generating contextually coherent responses, yet their fixed context windows
pose fundamental challenges for maintaining consistency over prolonged
multi-session dialogues. We introduce Mem0, a scalable memory-centric
architecture that addresses this issue by dynamically extracting,
consolidating, and retrieving salient information from ongoing conversations.
Building on this foundation, we further propose an enhanced variant that
leverages graph-based memory representations to capture complex relational
structures among conversational elements. Through comprehensive evaluations on
LOCOMO benchmark, we systematically compare our approaches against six baseline
categories: (i) established memory-augmented systems, (ii) retrieval-augmented
generation (RAG) with varying chunk sizes and k-values, (iii) a full-context
approach that processes the entire conversation history, (iv) an open-source
memory solution, (v) a proprietary model system, and (vi) a dedicated memory
management platform. Empirical results show that our methods consistently
outperform all existing memory systems across four question categories:
single-hop, temporal, multi-hop, and open-domain. Notably, Mem0 achieves 26%
relative improvements in the LLM-as-a-Judge metric over OpenAI, while Mem0 with
graph memory achieves around 2% higher overall score than the base
configuration. Beyond accuracy gains, we also markedly reduce computational
overhead compared to full-context method. In particular, Mem0 attains a 91%
lower p95 latency and saves more than 90% token cost, offering a compelling
balance between advanced reasoning capabilities and practical deployment
constraints. Our findings highlight critical role of structured, persistent
memory mechanisms for long-term conversational coherence, paving the way for
more reliable and efficient LLM-driven AI agents.Summary
AI-Generated Summary