Mem0: Создание готовых к производству ИИ-агентов с масштабируемой долговременной памятью
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
April 28, 2025
Авторы: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющую способность генерировать контекстуально связные ответы, однако их фиксированные окна контекста создают фундаментальные проблемы для поддержания согласованности в продолжительных многосессионных диалогах. Мы представляем Mem0, масштабируемую архитектуру, ориентированную на память, которая решает эту проблему за счет динамического извлечения, консолидации и извлечения ключевой информации из текущих бесед. На основе этого подхода мы предлагаем улучшенный вариант, использующий графовые представления памяти для захвата сложных реляционных структур между элементами диалога. В ходе всесторонних оценок на бенчмарке LOCOMO мы систематически сравниваем наши подходы с шестью категориями базовых методов: (i) устоявшиеся системы с расширенной памятью, (ii) генерация с расширением поиска (RAG) с различными размерами фрагментов и значениями k, (iii) подход с полным контекстом, обрабатывающий всю историю беседы, (iv) открытое решение для памяти, (v) проприетарная модель системы и (vi) специализированная платформа управления памятью. Эмпирические результаты показывают, что наши методы стабильно превосходят все существующие системы памяти по четырем категориям вопросов: одношаговые, временные, многошаговые и открытые. В частности, Mem0 достигает 26% относительного улучшения по метрике LLM-as-a-Judge по сравнению с OpenAI, а Mem0 с графовой памятью демонстрирует примерно на 2% более высокий общий балл, чем базовая конфигурация. Помимо повышения точности, мы также значительно снижаем вычислительные затраты по сравнению с методом полного контекста. В частности, Mem0 достигает 91% снижения p95 задержки и экономит более 90% затрат на токены, предлагая убедительный баланс между продвинутыми возможностями рассуждения и практическими ограничениями развертывания. Наши результаты подчеркивают критическую роль структурированных, устойчивых механизмов памяти для долгосрочной согласованности диалогов, прокладывая путь к более надежным и эффективным ИИ-агентам на основе LLM.
English
Large Language Models (LLMs) have demonstrated remarkable prowess in
generating contextually coherent responses, yet their fixed context windows
pose fundamental challenges for maintaining consistency over prolonged
multi-session dialogues. We introduce Mem0, a scalable memory-centric
architecture that addresses this issue by dynamically extracting,
consolidating, and retrieving salient information from ongoing conversations.
Building on this foundation, we further propose an enhanced variant that
leverages graph-based memory representations to capture complex relational
structures among conversational elements. Through comprehensive evaluations on
LOCOMO benchmark, we systematically compare our approaches against six baseline
categories: (i) established memory-augmented systems, (ii) retrieval-augmented
generation (RAG) with varying chunk sizes and k-values, (iii) a full-context
approach that processes the entire conversation history, (iv) an open-source
memory solution, (v) a proprietary model system, and (vi) a dedicated memory
management platform. Empirical results show that our methods consistently
outperform all existing memory systems across four question categories:
single-hop, temporal, multi-hop, and open-domain. Notably, Mem0 achieves 26%
relative improvements in the LLM-as-a-Judge metric over OpenAI, while Mem0 with
graph memory achieves around 2% higher overall score than the base
configuration. Beyond accuracy gains, we also markedly reduce computational
overhead compared to full-context method. In particular, Mem0 attains a 91%
lower p95 latency and saves more than 90% token cost, offering a compelling
balance between advanced reasoning capabilities and practical deployment
constraints. Our findings highlight critical role of structured, persistent
memory mechanisms for long-term conversational coherence, paving the way for
more reliable and efficient LLM-driven AI agents.Summary
AI-Generated Summary