점진적 다중 턴 상호작용을 통한 LLM 에이전트의 메모리 평가
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
저자: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
초록
최근 대형 언어 모델(LLM) 에이전트를 평가하는 벤치마크는 주로 추론, 계획 및 실행 능력에 초점을 맞추고 있으며, 에이전트가 장기 정보를 기억하고 업데이트하며 검색하는 방식인 메모리라는 중요한 요소는 벤치마크의 부재로 인해 충분히 평가되지 않고 있다. 본 논문에서는 메모리 메커니즘을 갖춘 에이전트를 메모리 에이전트로 정의한다. 이 연구에서는 메모리 에이전트에게 필수적인 네 가지 핵심 역량, 즉 정확한 검색, 테스트 시간 학습, 장거리 이해, 그리고 갈등 해결을 식별한다. 기존 데이터셋은 제한된 컨텍스트 길이에 의존하거나 책 기반 질의응답과 같은 정적이고 긴 컨텍스트 설정에 맞춰져 있어, 점진적으로 정보를 축적하는 메모리 에이전트의 상호작용적이고 다중 턴의 특성을 반영하지 못한다. 또한, 기존 벤치마크는 이 네 가지 역량을 모두 포괄하지 않는다. 따라서 본 논문에서는 메모리 에이전트를 위해 특별히 설계된 새로운 벤치마크인 MemoryAgentBench을 소개한다. 이 벤치마크는 기존 데이터셋을 재구성하고 새로 구축한 데이터셋을 결합하여 위의 네 가지 메모리 역량을 모두 다루며, 메모리 품질을 평가하기 위한 체계적이고 도전적인 테스트베드를 제공한다. 단순한 컨텍스트 기반 및 검색 증강 생성(RAG) 시스템부터 외부 메모리 모듈과 도구 통합을 갖춘 고급 에이전트까지 다양한 메모리 에이전트를 평가한다. 실험 결과는 현재의 방법들이 네 가지 역량을 모두 숙달하는 데 미치지 못함을 보여주며, LLM 에이전트를 위한 포괄적인 메모리 메커니즘에 대한 추가 연구의 필요성을 강조한다.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.