MEME : Évaluation de mémoire multi-entité et évolutive

Résumé

Les agents basés sur les LLM opèrent de plus en plus dans des environnements persistants où ils doivent stocker, mettre à jour et raisonner sur des informations à travers de nombreuses sessions. Alors que les benchmarks antérieurs n’évaluent que les mises à jour d’une seule entité, MEME définit six tâches couvrant la totalité de l’espace défini par les axes multi-entités et évolutifs, dont trois non mesurées par les travaux précédents : Cascade et Absence (raisonnement sur les dépendances) et Suppression (état après retrait). En évaluant six systèmes de mémoire relevant de trois paradigmes de mémoire sur 100 épisodes contrôlés, nous constatons que tous les systèmes échouent au raisonnement sur les dépendances sous la configuration par défaut (Cascade : 3 %, Absence : 1 % de précision moyenne), malgré des performances adéquates en récupération statique. L’optimisation des invites, une récupération plus profonde, une réduction du bruit de remplissage et la plupart des LLM plus puissants ne parviennent pas à combler cet écart. Seul un agent basé sur des fichiers associé à Claude Opus 4.7 comme LLM interne comble partiellement l’écart, mais à environ 70 fois le coût de base, ce qui indique que la fermeture dépend actuellement de configurations qui ne sont pas pratiques à grande échelle. Le code et les données sont disponibles sur la page du projet : https://seokwonjung-jay.github.io/meme-eval/.

English

LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.

MEME : Évaluation de mémoire multi-entité et évolutive

MEME: Multi-entity & Evolving Memory Evaluation

Résumé

Support