MINTEval: Evaluación de la Memoria bajo Interferencia de Múltiples Objetivos en Sistemas de Agentes de Horizonte Largo

Resumen

Los agentes del mundo real operan en horizontes prolongados y en evolución, donde la información se actualiza repetidamente y puede interferir entre recuerdos, lo que exige una recuperación precisa y un razonamiento agregado sobre múltiples piezas de información. Sin embargo, los puntos de referencia existentes se centran en la recuperación estática e independiente, sin capturar estas interacciones dinámicas entre recuerdos en evolución. En este artículo, estudiamos cómo se desempeñan los agentes con memoria aumentada actual en entornos realistas, con alta interferencia y horizontes prolongados, en diversos dominios y tipos de preguntas. Presentamos MINTEval (Evaluación de Memoria a Largo Plazo bajo Interferencia), un punto de referencia que cuenta con (1) contextos largos y altamente interconectados con información actualizada con frecuencia que induce una interferencia sustancial, (2) dominios diversos (seguimiento de estados, diálogo multiturno, revisiones de Wikipedia y commits de GitHub), lo que permite evaluar la generalización entre dominios, y (3) tipos de preguntas diversas que evalúan la robustez ante la interferencia, incluyendo (i) tareas de recuperación de un único objetivo que requieren la obtención de un objetivo específico a partir de contextos largos, y (ii) tareas de agregación de múltiples objetivos que requieren razonamiento sobre múltiples piezas de información relevantes. En total, MINTEval cuenta con 15.6k pares de preguntas y respuestas en contextos de horizonte prolongado que promedian 138.8k tokens y se extienden hasta 1.8M de tokens por instancia. Evaluamos 7 sistemas representativos, incluyendo LLMs de contexto largo vanilla, RAG y marcos de agentes con memoria aumentada. En todos los sistemas, observamos un rendimiento consistentemente bajo (precisión promedio del 27.9%), especialmente en preguntas que requieren razonamiento agregado sobre múltiples evidencias. Nuestro análisis muestra que el rendimiento está limitado principalmente por la recuperación y la construcción de la memoria. Además, los sistemas de memoria actuales tienen dificultades para recordar y razonar sobre hechos anteriores que son revisados o interferidos por el contexto posterior, con una precisión que se degrada a medida que aumenta el número de actualizaciones intermedias.

English

Real-world agents operate over long and evolving horizons, where information is repeatedly updated and may interfere across memories, requiring accurate recall and aggregated reasoning over multiple pieces of information. However, existing benchmarks focus on static, independent recall and fail to capture these dynamic interactions between evolving memories. In this paper, we study how current memory-augmented agents perform in realistic, interference-heavy, long-horizon settings across diverse domains and question types. We introduce MINTEval (Long-Horizon Memory under INTerference Evaluation), a benchmark featuring (1) long, highly interconnected contexts with frequently updated information that induces substantial interference, (2) diverse domains (state tracking, multi-turn dialogue, Wikipedia revisions, and GitHub commits), enabling evaluation of domain generalization, and (3) diverse question types that assess robustness to interference, including (i) single-target recall tasks requiring retrieval of a specific target from long contexts, and (ii) multi-target aggregation tasks requiring reasoning over multiple relevant pieces of information. Overall, MINTEval has 15.6k question-answering pairs over long-horizon contexts averaging 138.8k tokens and extending up to 1.8M tokens per instance. We evaluate 7 representative systems, including vanilla long-context LLMs, RAG, and memory-augmented agent frameworks. Across all systems, we observe consistently low performance (avg. 27.9% accuracy), especially on questions requiring aggregated reasoning over multiple pieces of evidence. Our analysis shows that performance is primarily limited by retrieval and memory construction. Furthermore, current memory systems struggle to recall and reason over earlier facts that are revised or interfered with by subsequent context, with accuracy degrading as the number of intervening updates increases.