MINTEval: Оценка памяти при интерференции множества целей в долгосрочных агентных системах
MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems
May 19, 2026
Авторы: Hyunji Lee, Justin Chih-Yao Chen, Joykirat Singh, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Аннотация
Реальные агенты функционируют в условиях длительных и эволюционирующих горизонтов, где информация многократно обновляется и может интерферировать между воспоминаниями, требуя точного воспроизведения и агрегированного рассуждения на основе множества фрагментов информации. Однако существующие эталонные тесты сосредоточены на статическом, независимом воспроизведении и не учитывают динамические взаимодействия между эволюционирующими воспоминаниями. В данной работе мы исследуем, как современные агенты с усиленной памятью справляются с реалистичными, насыщенными интерференцией задачами в долгосрочных сценариях, охватывающих различные предметные области и типы вопросов. Мы представляем MINTEval (Long-Horizon Memory under INTerference Evaluation — оценка долговременной памяти в условиях интерференции), эталонный тест, включающий (1) длинные, сильно взаимосвязанные контексты с часто обновляемой информацией, вызывающие значительную интерференцию; (2) разнообразные предметные области (отслеживание состояний, многовитковый диалог, правки в Википедии и коммиты в GitHub), позволяющие оценить обобщение на разные области; и (3) разнообразные типы вопросов, оценивающие устойчивость к интерференции, включая (i) задачи на припоминание одной цели, требующие извлечения конкретного объекта из длинных контекстов, и (ii) задачи на агрегирование множества целей, требующие рассуждения на основе нескольких релевантных фрагментов информации. В целом, MINTEval содержит 15,6 тыс. пар вопрос-ответ в долгосрочных контекстах, средняя длина которых составляет 138,8 тыс. токенов, а максимальная достигает 1,8 млн токенов на один экземпляр. Мы оцениваем 7 репрезентативных систем, включая стандартные LLM с длинным контекстом, RAG и агентные фреймворки с усиленной памятью. Во всех системах наблюдается стабильно низкая производительность (средняя точность 27,9%), особенно на вопросах, требующих агрегированного рассуждения по множеству свидетельств. Наш анализ показывает, что производительность в первую очередь ограничивается извлечением информации и построением памяти. Кроме того, современные системы памяти с трудом воспроизводят и обрабатывают более ранние факты, которые были изменены или подверглись интерференции со стороны последующего контекста; при этом точность снижается по мере увеличения числа промежуточных обновлений.
English
Real-world agents operate over long and evolving horizons, where information is repeatedly updated and may interfere across memories, requiring accurate recall and aggregated reasoning over multiple pieces of information. However, existing benchmarks focus on static, independent recall and fail to capture these dynamic interactions between evolving memories. In this paper, we study how current memory-augmented agents perform in realistic, interference-heavy, long-horizon settings across diverse domains and question types. We introduce MINTEval (Long-Horizon Memory under INTerference Evaluation), a benchmark featuring (1) long, highly interconnected contexts with frequently updated information that induces substantial interference, (2) diverse domains (state tracking, multi-turn dialogue, Wikipedia revisions, and GitHub commits), enabling evaluation of domain generalization, and (3) diverse question types that assess robustness to interference, including (i) single-target recall tasks requiring retrieval of a specific target from long contexts, and (ii) multi-target aggregation tasks requiring reasoning over multiple relevant pieces of information. Overall, MINTEval has 15.6k question-answering pairs over long-horizon contexts averaging 138.8k tokens and extending up to 1.8M tokens per instance. We evaluate 7 representative systems, including vanilla long-context LLMs, RAG, and memory-augmented agent frameworks. Across all systems, we observe consistently low performance (avg. 27.9% accuracy), especially on questions requiring aggregated reasoning over multiple pieces of evidence. Our analysis shows that performance is primarily limited by retrieval and memory construction. Furthermore, current memory systems struggle to recall and reason over earlier facts that are revised or interfered with by subsequent context, with accuracy degrading as the number of intervening updates increases.