ChatPaper.aiChatPaper

Mem0: 확장 가능한 장기 메모리를 갖춘 프로덕션 준비 완료 AI 에이전트 구축

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

April 28, 2025
저자: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
cs.AI

초록

대규모 언어 모델(LLMs)은 맥락적으로 일관된 응답을 생성하는 데 있어 뛰어난 능력을 보여주지만, 고정된 컨텍스트 윈도우는 장기적인 다중 세션 대화에서 일관성을 유지하는 데 근본적인 어려움을 야기합니다. 우리는 이러한 문제를 해결하기 위해 진행 중인 대화에서 중요한 정보를 동적으로 추출, 통합 및 검색할 수 있는 확장 가능한 메모리 중심 아키텍처인 Mem0를 소개합니다. 이를 기반으로, 우리는 대화 요소 간의 복잡한 관계 구조를 포착하기 위해 그래프 기반 메모리 표현을 활용하는 향상된 변형을 추가로 제안합니다. LOCOMO 벤치마크에 대한 포괄적인 평가를 통해, 우리는 다음과 같은 여섯 가지 기준 카테고리와 우리의 접근 방식을 체계적으로 비교합니다: (i) 기존의 메모리 증강 시스템, (ii) 다양한 청크 크기와 k-값을 사용한 검색 증강 생성(RAG), (iii) 전체 대화 기록을 처리하는 전체 컨텍스트 접근법, (iv) 오픈소스 메모리 솔루션, (v) 독점 모델 시스템, (vi) 전용 메모리 관리 플랫폼. 실험 결과는 우리의 방법이 단일 홉, 시간적, 다중 홉, 개방형 도메인이라는 네 가지 질문 카테고리에서 모든 기존 메모리 시스템을 일관적으로 능가함을 보여줍니다. 특히, Mem0는 OpenAI 대비 LLM-as-a-Judge 지표에서 26%의 상대적 개선을 달성했으며, 그래프 메모리를 사용한 Mem0는 기본 구성보다 약 2% 높은 전체 점수를 기록했습니다. 정확도 향상 외에도, 우리는 전체 컨텍스트 방법에 비해 계산 오버헤드를 현저히 줄였습니다. 특히, Mem0는 p95 지연 시간을 91% 낮추고 토큰 비용을 90% 이상 절약하여 고급 추론 능력과 실용적인 배포 제약 사이의 균형을 제공합니다. 우리의 연구 결과는 장기적인 대화 일관성을 위한 구조화된 지속적 메모리 메커니즘의 중요성을 강조하며, 더 신뢰할 수 있고 효율적인 LLM 기반 AI 에이전트를 위한 길을 열어줍니다.
English
Large Language Models (LLMs) have demonstrated remarkable prowess in generating contextually coherent responses, yet their fixed context windows pose fundamental challenges for maintaining consistency over prolonged multi-session dialogues. We introduce Mem0, a scalable memory-centric architecture that addresses this issue by dynamically extracting, consolidating, and retrieving salient information from ongoing conversations. Building on this foundation, we further propose an enhanced variant that leverages graph-based memory representations to capture complex relational structures among conversational elements. Through comprehensive evaluations on LOCOMO benchmark, we systematically compare our approaches against six baseline categories: (i) established memory-augmented systems, (ii) retrieval-augmented generation (RAG) with varying chunk sizes and k-values, (iii) a full-context approach that processes the entire conversation history, (iv) an open-source memory solution, (v) a proprietary model system, and (vi) a dedicated memory management platform. Empirical results show that our methods consistently outperform all existing memory systems across four question categories: single-hop, temporal, multi-hop, and open-domain. Notably, Mem0 achieves 26% relative improvements in the LLM-as-a-Judge metric over OpenAI, while Mem0 with graph memory achieves around 2% higher overall score than the base configuration. Beyond accuracy gains, we also markedly reduce computational overhead compared to full-context method. In particular, Mem0 attains a 91% lower p95 latency and saves more than 90% token cost, offering a compelling balance between advanced reasoning capabilities and practical deployment constraints. Our findings highlight critical role of structured, persistent memory mechanisms for long-term conversational coherence, paving the way for more reliable and efficient LLM-driven AI agents.

Summary

AI-Generated Summary

PDF72April 29, 2025