Mem0: Costruire agenti AI pronti per la produzione con memoria a lungo termine scalabile
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
April 28, 2025
Autori: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato una notevole abilità nel generare risposte contestualmente coerenti, ma le loro finestre di contesto fisse pongono sfide fondamentali per mantenere la coerenza in dialoghi prolungati e multi-sessione. Introduciamo Mem0, un'architettura scalabile centrata sulla memoria che affronta questo problema estraendo, consolidando e recuperando dinamicamente informazioni salienti dalle conversazioni in corso. Basandoci su questa fondazione, proponiamo ulteriormente una variante migliorata che sfrutta rappresentazioni di memoria basate su grafo per catturare strutture relazionali complesse tra gli elementi conversazionali. Attraverso valutazioni complete sul benchmark LOCOMO, confrontiamo sistematicamente i nostri approcci con sei categorie di baseline: (i) sistemi consolidati potenziati dalla memoria, (ii) generazione aumentata dal recupero (RAG) con diverse dimensioni di chunk e valori di k, (iii) un approccio a contesto completo che elabora l'intera cronologia della conversazione, (iv) una soluzione di memoria open-source, (v) un sistema di modello proprietario e (vi) una piattaforma dedicata alla gestione della memoria. I risultati empirici mostrano che i nostri metodi superano costantemente tutti i sistemi di memoria esistenti in quattro categorie di domande: single-hop, temporali, multi-hop e open-domain. In particolare, Mem0 raggiunge un miglioramento relativo del 26% nella metrica LLM-as-a-Judge rispetto a OpenAI, mentre Mem0 con memoria a grafo ottiene un punteggio complessivo circa del 2% più alto rispetto alla configurazione base. Oltre ai guadagni in accuratezza, riduciamo anche significativamente il sovraccarico computazionale rispetto al metodo a contesto completo. In particolare, Mem0 raggiunge una latenza p95 inferiore del 91% e risparmia più del 90% del costo dei token, offrendo un equilibrio convincente tra capacità di ragionamento avanzate e vincoli pratici di implementazione. Le nostre scoperte evidenziano il ruolo cruciale dei meccanismi di memoria strutturata e persistente per la coerenza conversazionale a lungo termine, aprendo la strada a agenti AI guidati da LLM più affidabili ed efficienti.
English
Large Language Models (LLMs) have demonstrated remarkable prowess in
generating contextually coherent responses, yet their fixed context windows
pose fundamental challenges for maintaining consistency over prolonged
multi-session dialogues. We introduce Mem0, a scalable memory-centric
architecture that addresses this issue by dynamically extracting,
consolidating, and retrieving salient information from ongoing conversations.
Building on this foundation, we further propose an enhanced variant that
leverages graph-based memory representations to capture complex relational
structures among conversational elements. Through comprehensive evaluations on
LOCOMO benchmark, we systematically compare our approaches against six baseline
categories: (i) established memory-augmented systems, (ii) retrieval-augmented
generation (RAG) with varying chunk sizes and k-values, (iii) a full-context
approach that processes the entire conversation history, (iv) an open-source
memory solution, (v) a proprietary model system, and (vi) a dedicated memory
management platform. Empirical results show that our methods consistently
outperform all existing memory systems across four question categories:
single-hop, temporal, multi-hop, and open-domain. Notably, Mem0 achieves 26%
relative improvements in the LLM-as-a-Judge metric over OpenAI, while Mem0 with
graph memory achieves around 2% higher overall score than the base
configuration. Beyond accuracy gains, we also markedly reduce computational
overhead compared to full-context method. In particular, Mem0 attains a 91%
lower p95 latency and saves more than 90% token cost, offering a compelling
balance between advanced reasoning capabilities and practical deployment
constraints. Our findings highlight critical role of structured, persistent
memory mechanisms for long-term conversational coherence, paving the way for
more reliable and efficient LLM-driven AI agents.Summary
AI-Generated Summary