MINTEval: Avaliação de Memória sob Interferência Multi-Alvo em Sistemas de Agentes de Longo Horizonte

Resumo

Agentes do mundo real operam em horizontes longos e evolutivos, onde as informações são atualizadas repetidamente e podem interferir entre memórias, exigindo recuperação precisa e raciocínio agregado sobre múltiplas informações. No entanto, os benchmarks existentes focam em recuperação estática e independente, não capturando essas interações dinâmicas entre memórias em evolução. Neste artigo, estudamos como agentes atuais com memória aumentada se comportam em cenários realistas, com alta interferência e horizontes longos, em diversos domínios e tipos de pergunta. Apresentamos o MINTEval (Avaliação de Memória de Longo Horizonte sob Interferência), um benchmark que oferece: (1) contextos longos e altamente interconectados, com informações frequentemente atualizadas que induzem interferência substancial; (2) domínios diversos (rastreamento de estados, diálogo multi-turno, revisões da Wikipédia e commits do GitHub), permitindo avaliação de generalização entre domínios; e (3) tipos variados de pergunta que avaliam robustez à interferência, incluindo (i) tarefas de recordação de alvo único, que exigem a recuperação de um alvo específico em contextos longos, e (ii) tarefas de agregação de múltiplos alvos, que exigem raciocínio sobre múltiplas informações relevantes. No total, o MINTEval possui 15.6 mil pares de pergunta-resposta em contextos de longo horizonte, com média de 138.8 mil tokens e extensão de até 1.8 milhão de tokens por instância. Avaliamos 7 sistemas representativos, incluindo LLMs de contexto longo tradicionais, RAG e frameworks de agentes com memória aumentada. Em todos os sistemas, observamos desempenho consistentemente baixo (média de 27.9% de acurácia), especialmente em perguntas que exigem raciocínio agregado sobre múltiplas evidências. Nossa análise mostra que o desempenho é limitado principalmente pela recuperação e construção da memória. Além disso, os sistemas de memória atuais têm dificuldade em recordar e raciocinar sobre fatos anteriores que são revisados ou interferidos por contexto subsequente, com a acurácia degradando à medida que o número de atualizações intervenientes aumenta.

English

Real-world agents operate over long and evolving horizons, where information is repeatedly updated and may interfere across memories, requiring accurate recall and aggregated reasoning over multiple pieces of information. However, existing benchmarks focus on static, independent recall and fail to capture these dynamic interactions between evolving memories. In this paper, we study how current memory-augmented agents perform in realistic, interference-heavy, long-horizon settings across diverse domains and question types. We introduce MINTEval (Long-Horizon Memory under INTerference Evaluation), a benchmark featuring (1) long, highly interconnected contexts with frequently updated information that induces substantial interference, (2) diverse domains (state tracking, multi-turn dialogue, Wikipedia revisions, and GitHub commits), enabling evaluation of domain generalization, and (3) diverse question types that assess robustness to interference, including (i) single-target recall tasks requiring retrieval of a specific target from long contexts, and (ii) multi-target aggregation tasks requiring reasoning over multiple relevant pieces of information. Overall, MINTEval has 15.6k question-answering pairs over long-horizon contexts averaging 138.8k tokens and extending up to 1.8M tokens per instance. We evaluate 7 representative systems, including vanilla long-context LLMs, RAG, and memory-augmented agent frameworks. Across all systems, we observe consistently low performance (avg. 27.9% accuracy), especially on questions requiring aggregated reasoning over multiple pieces of evidence. Our analysis shows that performance is primarily limited by retrieval and memory construction. Furthermore, current memory systems struggle to recall and reason over earlier facts that are revised or interfered with by subsequent context, with accuracy degrading as the number of intervening updates increases.