ChatPaper.aiChatPaper

점진적 다중 턴 상호작용을 통한 LLM 에이전트의 메모리 평가

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

July 7, 2025
저자: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI

초록

최근 대형 언어 모델(LLM) 에이전트를 평가하는 벤치마크는 주로 추론, 계획 및 실행 능력에 초점을 맞추고 있으며, 에이전트가 장기 정보를 기억하고 업데이트하며 검색하는 방식인 메모리라는 중요한 요소는 벤치마크의 부재로 인해 충분히 평가되지 않고 있다. 본 논문에서는 메모리 메커니즘을 갖춘 에이전트를 메모리 에이전트로 정의한다. 이 연구에서는 메모리 에이전트에게 필수적인 네 가지 핵심 역량, 즉 정확한 검색, 테스트 시간 학습, 장거리 이해, 그리고 갈등 해결을 식별한다. 기존 데이터셋은 제한된 컨텍스트 길이에 의존하거나 책 기반 질의응답과 같은 정적이고 긴 컨텍스트 설정에 맞춰져 있어, 점진적으로 정보를 축적하는 메모리 에이전트의 상호작용적이고 다중 턴의 특성을 반영하지 못한다. 또한, 기존 벤치마크는 이 네 가지 역량을 모두 포괄하지 않는다. 따라서 본 논문에서는 메모리 에이전트를 위해 특별히 설계된 새로운 벤치마크인 MemoryAgentBench을 소개한다. 이 벤치마크는 기존 데이터셋을 재구성하고 새로 구축한 데이터셋을 결합하여 위의 네 가지 메모리 역량을 모두 다루며, 메모리 품질을 평가하기 위한 체계적이고 도전적인 테스트베드를 제공한다. 단순한 컨텍스트 기반 및 검색 증강 생성(RAG) 시스템부터 외부 메모리 모듈과 도구 통합을 갖춘 고급 에이전트까지 다양한 메모리 에이전트를 평가한다. 실험 결과는 현재의 방법들이 네 가지 역량을 모두 숙달하는 데 미치지 못함을 보여주며, LLM 에이전트를 위한 포괄적인 메모리 메커니즘에 대한 추가 연구의 필요성을 강조한다.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on evaluating reasoning, planning, and execution capabilities, while another critical component-memory, encompassing how agents memorize, update, and retrieve long-term information-is under-evaluated due to the lack of benchmarks. We term agents with memory mechanisms as memory agents. In this paper, we identify four core competencies essential for memory agents: accurate retrieval, test-time learning, long-range understanding, and conflict resolution. Existing datasets either rely on limited context lengths or are tailored for static, long-context settings like book-based QA, which do not reflect the interactive, multi-turn nature of memory agents that incrementally accumulate information. Furthermore, no existing benchmarks cover all four competencies. Therefore, we introduce MemoryAgentBench, a new benchmark specifically designed for memory agents. Our benchmark combines reformulated existing datasets with newly constructed ones, covering the above four memory competencies, providing a systematic and challenging testbed for assessing memory quality. We evaluate a diverse set of memory agents, ranging from simple context-based and retrieval-augmented generation (RAG) systems to advanced agents with external memory modules and tool integration. Empirical results reveal that current methods fall short of mastering all four competencies, underscoring the need for further research into comprehensive memory mechanisms for LLM agents.
PDF112July 8, 2025