MEME: Многообъектная и эволюционирующая оценка памяти

Аннотация

Агенты на основе LLM все чаще работают в долговременных средах, где им необходимо хранить, обновлять и обрабатывать информацию на протяжении многих сессий. В то время как предыдущие бенчмарки оценивают только обновления с одной сущностью, MEME определяет шесть задач, охватывающих все пространство, заданное осями множественных сущностей и эволюции, включая три, не оценивавшихся в предыдущих работах: Cascade и Absence (рассуждения о зависимостях) и Deletion (состояние после удаления). Оценивая шесть систем памяти, охватывающих три парадигмы памяти, на 100 контролируемых эпизодах, мы обнаруживаем, что все системы показывают провал в рассуждениях о зависимостях при стандартной конфигурации (Cascade: 3%, Absence: 1% средней точности), несмотря на адекватную производительность статического извлечения. Оптимизация промптов, более глубокое извлечение, уменьшение шума заполнителей и большинство более сильных LLM не могут устранить этот разрыв. Только файловый агент в паре с Claude Opus 4.7 в качестве внутренней LLM частично устраняет разрыв, но при затратах, в ~70 раз превышающих базовый уровень, что указывает на то, что устранение разрыва в настоящее время зависит от конфигураций, которые непрактичны в масштабе. Код и данные доступны на странице проекта: https://seokwonjung-jay.github.io/meme-eval/.

English

LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.

MEME: Многообъектная и эволюционирующая оценка памяти

MEME: Multi-entity & Evolving Memory Evaluation

Аннотация

Support