Evaluación de la Memoria en Agentes de LLM mediante Interacciones Incrementales de Múltiples Turnos
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
Autores: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
Resumen
Los puntos de referencia recientes para los agentes de Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) se centran principalmente en evaluar las capacidades de razonamiento, planificación y ejecución, mientras que otro componente crítico—la memoria, que abarca cómo los agentes memorizan, actualizan y recuperan información a largo plazo—está subevaluado debido a la falta de puntos de referencia. Denominamos a los agentes con mecanismos de memoria como agentes de memoria. En este artículo, identificamos cuatro competencias fundamentales esenciales para los agentes de memoria: recuperación precisa, aprendizaje en tiempo de prueba, comprensión de largo alcance y resolución de conflictos. Los conjuntos de datos existentes dependen de longitudes de contexto limitadas o están adaptados para entornos estáticos de contexto largo, como preguntas y respuestas basadas en libros, lo que no refleja la naturaleza interactiva y de múltiples turnos de los agentes de memoria que acumulan información de manera incremental. Además, ningún punto de referencia existente cubre las cuatro competencias. Por lo tanto, presentamos MemoryAgentBench, un nuevo punto de referencia diseñado específicamente para agentes de memoria. Nuestro punto de referencia combina conjuntos de datos existentes reformulados con otros recién construidos, cubriendo las cuatro competencias de memoria mencionadas, proporcionando un banco de pruebas sistemático y desafiante para evaluar la calidad de la memoria. Evaluamos un conjunto diverso de agentes de memoria, que van desde sistemas simples basados en contexto y generación aumentada por recuperación (RAG, por sus siglas en inglés) hasta agentes avanzados con módulos de memoria externa e integración de herramientas. Los resultados empíricos revelan que los métodos actuales no dominan las cuatro competencias, lo que subraya la necesidad de seguir investigando mecanismos de memoria integrales para los agentes LLM.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.