MEME: Evaluación de Memoria Multi-entidad y Evolutiva

Resumen

Los agentes basados en LLM operan cada vez más en entornos persistentes donde deben almacenar, actualizar y razonar sobre información a lo largo de múltiples sesiones. Mientras que los benchmarks previos evalúan únicamente actualizaciones de una sola entidad, MEME define seis tareas que abarcan el espacio completo definido por los ejes de múltiples entidades y evolución, incluyendo tres no evaluadas por trabajos anteriores: Cascade y Absence (razonamiento de dependencias) y Deletion (estado posterior a la eliminación). Al evaluar seis sistemas de memoria que abarcan tres paradigmas de memoria en 100 episodios controlados, encontramos que todos los sistemas colapsan en el razonamiento de dependencias bajo la configuración predeterminada (Cascade: 3%, Absence: 1% de precisión promedio), a pesar de un rendimiento de recuperación estática adecuado. La optimización de indicaciones, la recuperación más profunda, la reducción del ruido de relleno y la mayoría de los LLM más potentes no logran cerrar esta brecha. Solo un agente basado en archivos combinado con Claude Opus 4.7 como su LLM interno cierra parcialmente la brecha, pero a un costo aproximadamente 70 veces superior al costo base, lo que indica que el cierre depende actualmente de configuraciones que no son prácticas a escala. El código y los datos están disponibles en la página del proyecto: https://seokwonjung-jay.github.io/meme-eval/.

English

LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.

MEME: Evaluación de Memoria Multi-entidad y Evolutiva

MEME: Multi-entity & Evolving Memory Evaluation

Resumen

Support