Оценка памяти в агентах с использованием больших языковых моделей посредством инкрементных многоходовых взаимодействий
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
Авторы: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
Аннотация
Недавние бенчмарки для агентов с большими языковыми моделями (LLM) в основном сосредоточены на оценке способностей к рассуждению, планированию и выполнению задач, в то время как другой критически важный компонент — память, включающий то, как агенты запоминают, обновляют и извлекают долгосрочную информацию, — остается недостаточно оцененным из-за отсутствия соответствующих бенчмарков. Мы называем агентов с механизмами памяти агентами с памятью. В данной статье мы выделяем четыре ключевые компетенции, необходимые для агентов с памятью: точное извлечение информации, обучение во время тестирования, понимание на длинных дистанциях и разрешение конфликтов. Существующие наборы данных либо ограничены по длине контекста, либо адаптированы для статических, длинных контекстов, таких как вопросы и ответы на основе книг, что не отражает интерактивный, многоходовый характер агентов с памятью, которые постепенно накапливают информацию. Более того, ни один из существующих бенчмарков не охватывает все четыре компетенции. Поэтому мы представляем MemoryAgentBench — новый бенчмарк, специально разработанный для агентов с памятью. Наш бенчмарк объединяет переработанные существующие наборы данных с новыми, охватывая указанные четыре компетенции памяти, предоставляя систематическую и сложную тестовую среду для оценки качества памяти. Мы оцениваем разнообразный набор агентов с памятью, начиная от простых систем на основе контекста и генерации, усиленной извлечением (RAG), до продвинутых агентов с внешними модулями памяти и интеграцией инструментов. Эмпирические результаты показывают, что современные методы не справляются с освоением всех четырех компетенций, что подчеркивает необходимость дальнейших исследований в области комплексных механизмов памяти для агентов LLM.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.