MINTEval: Evaluatie van geheugen onder multi-doel interferentie in lange-termijn agentsystemen

Samenvatting

Praktische agents opereren over lange en evoluerende tijdsperioden, waarin informatie herhaaldelijk wordt bijgewerkt en kan interfereren over herinneringen heen, wat nauwkeurige terugroep en samengevoegde redenering over meerdere informatie-eenheden vereist. Echter, bestaande benchmarks richten zich op statische, onafhankelijke terugroep en slagen er niet in deze dynamische interacties tussen evoluerende herinneringen vast te leggen. In dit artikel bestuderen we hoe huidige geheugenversterkte agents presteren in realistische, interferentie-rijke, langetermijnomgevingen over diverse domeinen en vraagtypen. We introduceren MINTEval (Long-Horizon Memory under INTerference Evaluation), een benchmark met (1) lange, sterk onderling verbonden contexten met frequente informatie-updates die aanzienlijke interferentie veroorzaken, (2) diverse domeinen (toestandsregistratie, meerbeurtsdialoog, Wikipedia-revisies en GitHub-commits), wat evaluatie van domeingeneralisatie mogelijk maakt, en (3) diverse vraagtypen die robuustheid tegen interferentie beoordelen, waaronder (i) enkelvoudige doeltaken die het ophalen van een specifiek doel uit lange contexten vereisen, en (ii) meervoudige samenvoegingstaken die redeneren over meerdere relevante informatie-eenheden vereisen. In totaal bevat MINTEval 15,6k vraag-antwoordparen over langetermijncontexten met een gemiddelde van 138,8k tokens en tot 1,8M tokens per instantie. We evalueren 7 representatieve systemen, waaronder vanilla long-context LLM's, RAG en geheugenversterkte agentframeworks. Over alle systemen heen zien we consequent lage prestaties (gemiddeld 27,9% nauwkeurigheid), vooral bij vragen die samengevoegde redenering over meerdere bewijsstukken vereisen. Onze analyse toont aan dat de prestaties voornamelijk worden beperkt door terugvinden en geheugenconstructie. Bovendien worstelen huidige geheugensystemen met het herinneren en redeneren over eerdere feiten die zijn herzien of beïnvloed door latere context, waarbij de nauwkeurigheid afneemt naarmate het aantal tussenliggende updates toeneemt.

English

Real-world agents operate over long and evolving horizons, where information is repeatedly updated and may interfere across memories, requiring accurate recall and aggregated reasoning over multiple pieces of information. However, existing benchmarks focus on static, independent recall and fail to capture these dynamic interactions between evolving memories. In this paper, we study how current memory-augmented agents perform in realistic, interference-heavy, long-horizon settings across diverse domains and question types. We introduce MINTEval (Long-Horizon Memory under INTerference Evaluation), a benchmark featuring (1) long, highly interconnected contexts with frequently updated information that induces substantial interference, (2) diverse domains (state tracking, multi-turn dialogue, Wikipedia revisions, and GitHub commits), enabling evaluation of domain generalization, and (3) diverse question types that assess robustness to interference, including (i) single-target recall tasks requiring retrieval of a specific target from long contexts, and (ii) multi-target aggregation tasks requiring reasoning over multiple relevant pieces of information. Overall, MINTEval has 15.6k question-answering pairs over long-horizon contexts averaging 138.8k tokens and extending up to 1.8M tokens per instance. We evaluate 7 representative systems, including vanilla long-context LLMs, RAG, and memory-augmented agent frameworks. Across all systems, we observe consistently low performance (avg. 27.9% accuracy), especially on questions requiring aggregated reasoning over multiple pieces of evidence. Our analysis shows that performance is primarily limited by retrieval and memory construction. Furthermore, current memory systems struggle to recall and reason over earlier facts that are revised or interfered with by subsequent context, with accuracy degrading as the number of intervening updates increases.