ChatPaper.aiChatPaper

MINTEval: Bewertung des Gedächtnisses unter Mehrziel-Interferenz in Langzeit-Agentensystemen

MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

May 19, 2026
Autoren: Hyunji Lee, Justin Chih-Yao Chen, Joykirat Singh, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Zusammenfassung

Reale Agenten operieren über lange und sich entwickelnde Horizonte, in denen Informationen wiederholt aktualisiert werden und sich gegenseitig im Gedächtnis stören können, was einen genauen Abruf und aggregiertes Schlussfolgern über mehrere Informationen erfordert. Bestehende Benchmarks konzentrieren sich jedoch auf statische, unabhängige Abrufe und erfassen diese dynamischen Wechselwirkungen zwischen sich entwickelnden Erinnerungen nicht. In dieser Arbeit untersuchen wir, wie aktuelle gedächtnisgestützte Agenten in realistischen, interferenzreichen Umgebungen mit langem Zeithorizont über verschiedene Domänen und Fragetypen hinweg abschneiden. Wir präsentieren MINTEval (Long-Horizon Memory under INTerference Evaluation), einen Benchmark, der (1) lange, hochgradig miteinander verbundene Kontexte mit häufig aktualisierten Informationen umfasst, die erhebliche Interferenz verursachen, (2) verschiedene Domänen (Zustandsverfolgung, mehrschrittiger Dialog, Wikipedia-Überarbeitungen und GitHub-Commits) abdeckt, was eine Bewertung der Domänengeneralisierung ermöglicht, und (3) verschiedene Fragetypen bereitstellt, die die Robustheit gegenüber Interferenz bewerten, darunter (i) Einzelziel-Abrufaufgaben, die das Auffinden eines bestimmten Ziels in langen Kontexten erfordern, und (ii) Mehrfachziel-Aggregationsaufgaben, die das Schlussfolgern über mehrere relevante Informationen erfordern. Insgesamt umfasst MINTEval 15,6k Frage-Antwort-Paare über Langzeithorizont-Kontexte mit durchschnittlich 138,8k Tokens und bis zu 1,8 Mio. Tokens pro Instanz. Wir evaluieren 7 repräsentative Systeme, darunter einfache LLMs mit langem Kontext, RAG und gedächtnisgestützte Agenten-Frameworks. Über alle Systeme hinweg beobachten wir durchweg niedrige Leistung (durchschnittlich 27,9% Genauigkeit), insbesondere bei Fragen, die aggregiertes Schlussfolgern über mehrere Beweisstücke erfordern. Unsere Analyse zeigt, dass die Leistung hauptsächlich durch den Abruf und die Gedächtniskonstruktion eingeschränkt wird. Darüber hinaus fällt es aktuellen Gedächtnissystemen schwer, frühere Fakten abzurufen und darüber zu schlussfolgern, die durch nachfolgenden Kontext überarbeitet oder gestört wurden, wobei die Genauigkeit mit zunehmender Anzahl dazwischenliegender Aktualisierungen abnimmt.
English
Real-world agents operate over long and evolving horizons, where information is repeatedly updated and may interfere across memories, requiring accurate recall and aggregated reasoning over multiple pieces of information. However, existing benchmarks focus on static, independent recall and fail to capture these dynamic interactions between evolving memories. In this paper, we study how current memory-augmented agents perform in realistic, interference-heavy, long-horizon settings across diverse domains and question types. We introduce MINTEval (Long-Horizon Memory under INTerference Evaluation), a benchmark featuring (1) long, highly interconnected contexts with frequently updated information that induces substantial interference, (2) diverse domains (state tracking, multi-turn dialogue, Wikipedia revisions, and GitHub commits), enabling evaluation of domain generalization, and (3) diverse question types that assess robustness to interference, including (i) single-target recall tasks requiring retrieval of a specific target from long contexts, and (ii) multi-target aggregation tasks requiring reasoning over multiple relevant pieces of information. Overall, MINTEval has 15.6k question-answering pairs over long-horizon contexts averaging 138.8k tokens and extending up to 1.8M tokens per instance. We evaluate 7 representative systems, including vanilla long-context LLMs, RAG, and memory-augmented agent frameworks. Across all systems, we observe consistently low performance (avg. 27.9% accuracy), especially on questions requiring aggregated reasoning over multiple pieces of evidence. Our analysis shows that performance is primarily limited by retrieval and memory construction. Furthermore, current memory systems struggle to recall and reason over earlier facts that are revised or interfered with by subsequent context, with accuracy degrading as the number of intervening updates increases.