MEME: Bewertung von Multi-Entitäten und sich entwickelndem Gedächtnis

Zusammenfassung

LLM-basierte Agenten operieren zunehmend in persistenten Umgebungen, in denen sie über viele Sitzungen hinweg Informationen speichern, aktualisieren und logisch verarbeiten müssen. Während frühere Benchmarks nur Aktualisierungen einzelner Entitäten bewerten, definiert MEME sechs Aufgaben, die den gesamten durch die Achsen Multi-Entity und Evolution aufgespannten Raum abdecken, darunter drei, die in bisherigen Arbeiten nicht bewertet wurden: Kaskade (Cascade) und Abwesenheit (Absence) (Abhängigkeitsschlussfolgerung) sowie Löschung (Deletion) (Zustand nach Entfernung). In der Evaluierung von sechs Speichersystemen aus drei Speicherparadigmen über 100 kontrollierte Episoden stellen wir fest, dass alle Systeme bei der Abhängigkeitsschlussfolgerung unter der Standardkonfiguration zusammenbrechen (Kaskade: 3 %, Abwesenheit: 1 % durchschnittliche Genauigkeit), obwohl die statische Abrufleistung ausreichend ist. Prompt-Optimierung, tieferer Abruf, reduziertes Füllrauschen und die meisten leistungsstärkeren LLMs schließen diese Lücke nicht. Nur ein dateibasierter Agent in Kombination mit Claude Opus 4.7 als internem LLM schließt die Lücke teilweise, jedoch zu etwa dem 70-fachen der Basiskosten, was darauf hindeutet, dass eine Schließung derzeit von Konfigurationen abhängt, die in großem Maßstab nicht praktikabel sind. Code und Daten sind auf der Projektseite verfügbar: https://seokwonjung-jay.github.io/meme-eval/.

English

LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.

MEME: Bewertung von Multi-Entitäten und sich entwickelndem Gedächtnis

MEME: Multi-entity & Evolving Memory Evaluation

Zusammenfassung

Support