MINTEval : Évaluation de la mémoire sous interférence multi-cible dans les systèmes d'agents à long horizon

Résumé

Les agents du monde réel opèrent sur des horizons temporels longs et évolutifs, où les informations sont mises à jour de manière répétée et peuvent interférer entre les souvenirs, nécessitant un rappel précis et un raisonnement agrégé sur plusieurs éléments d'information. Cependant, les benchmarks existants se concentrent sur un rappel statique et indépendant, et ne parviennent pas à capturer ces interactions dynamiques entre des souvenirs en évolution. Dans cet article, nous étudions comment les agents actuels à mémoire augmentée se comportent dans des contextes réalistes, à forte interférence et sur de longs horizons, à travers divers domaines et types de questions. Nous présentons MINTEval (Évaluation de la mémoire à long horizon sous interférence), un benchmark qui propose (1) des contextes longs et fortement interconnectés, avec des informations fréquemment mises à jour qui induisent une interférence substantielle, (2) des domaines variés (suivi d'état, dialogue multi-tours, révisions Wikipédia et commits GitHub), permettant d'évaluer la généralisation entre domaines, et (3) divers types de questions qui évaluent la robustesse face aux interférences, incluant (i) des tâches de rappel d'une cible unique nécessitant l'extraction d'une cible spécifique dans de longs contextes, et (ii) des tâches d'agrégation multi-cibles nécessitant un raisonnement sur plusieurs éléments d'information pertinents. Globalement, MINTEval comprend 15 600 paires question-réponse sur des contextes à long horizon, d'une longueur moyenne de 138 800 tokens et pouvant atteindre jusqu'à 1,8 million de tokens par instance. Nous évaluons 7 systèmes représentatifs, incluant des LLM à contexte long classiques, des systèmes RAG et des frameworks d'agents à mémoire augmentée. Sur l'ensemble des systèmes, nous observons des performances constamment faibles (précision moyenne de 27,9 %), en particulier sur les questions nécessitant un raisonnement agrégé sur plusieurs éléments de preuve. Notre analyse montre que les performances sont principalement limitées par la récupération et la construction de la mémoire. De plus, les systèmes de mémoire actuels peinent à rappeler et à raisonner sur des faits antérieurs qui sont révisés ou interférés par un contexte ultérieur, avec une dégradation de la précision à mesure que le nombre de mises à jour intermédiaires augmente.

English

Real-world agents operate over long and evolving horizons, where information is repeatedly updated and may interfere across memories, requiring accurate recall and aggregated reasoning over multiple pieces of information. However, existing benchmarks focus on static, independent recall and fail to capture these dynamic interactions between evolving memories. In this paper, we study how current memory-augmented agents perform in realistic, interference-heavy, long-horizon settings across diverse domains and question types. We introduce MINTEval (Long-Horizon Memory under INTerference Evaluation), a benchmark featuring (1) long, highly interconnected contexts with frequently updated information that induces substantial interference, (2) diverse domains (state tracking, multi-turn dialogue, Wikipedia revisions, and GitHub commits), enabling evaluation of domain generalization, and (3) diverse question types that assess robustness to interference, including (i) single-target recall tasks requiring retrieval of a specific target from long contexts, and (ii) multi-target aggregation tasks requiring reasoning over multiple relevant pieces of information. Overall, MINTEval has 15.6k question-answering pairs over long-horizon contexts averaging 138.8k tokens and extending up to 1.8M tokens per instance. We evaluate 7 representative systems, including vanilla long-context LLMs, RAG, and memory-augmented agent frameworks. Across all systems, we observe consistently low performance (avg. 27.9% accuracy), especially on questions requiring aggregated reasoning over multiple pieces of evidence. Our analysis shows that performance is primarily limited by retrieval and memory construction. Furthermore, current memory systems struggle to recall and reason over earlier facts that are revised or interfered with by subsequent context, with accuracy degrading as the number of intervening updates increases.