ChatPaper.aiChatPaper

Оценка памяти в агентах с использованием больших языковых моделей посредством инкрементных многоходовых взаимодействий

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

July 7, 2025
Авторы: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI

Аннотация

Недавние бенчмарки для агентов с большими языковыми моделями (LLM) в основном сосредоточены на оценке способностей к рассуждению, планированию и выполнению задач, в то время как другой критически важный компонент — память, включающий то, как агенты запоминают, обновляют и извлекают долгосрочную информацию, — остается недостаточно оцененным из-за отсутствия соответствующих бенчмарков. Мы называем агентов с механизмами памяти агентами с памятью. В данной статье мы выделяем четыре ключевые компетенции, необходимые для агентов с памятью: точное извлечение информации, обучение во время тестирования, понимание на длинных дистанциях и разрешение конфликтов. Существующие наборы данных либо ограничены по длине контекста, либо адаптированы для статических, длинных контекстов, таких как вопросы и ответы на основе книг, что не отражает интерактивный, многоходовый характер агентов с памятью, которые постепенно накапливают информацию. Более того, ни один из существующих бенчмарков не охватывает все четыре компетенции. Поэтому мы представляем MemoryAgentBench — новый бенчмарк, специально разработанный для агентов с памятью. Наш бенчмарк объединяет переработанные существующие наборы данных с новыми, охватывая указанные четыре компетенции памяти, предоставляя систематическую и сложную тестовую среду для оценки качества памяти. Мы оцениваем разнообразный набор агентов с памятью, начиная от простых систем на основе контекста и генерации, усиленной извлечением (RAG), до продвинутых агентов с внешними модулями памяти и интеграцией инструментов. Эмпирические результаты показывают, что современные методы не справляются с освоением всех четырех компетенций, что подчеркивает необходимость дальнейших исследований в области комплексных механизмов памяти для агентов LLM.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on evaluating reasoning, planning, and execution capabilities, while another critical component-memory, encompassing how agents memorize, update, and retrieve long-term information-is under-evaluated due to the lack of benchmarks. We term agents with memory mechanisms as memory agents. In this paper, we identify four core competencies essential for memory agents: accurate retrieval, test-time learning, long-range understanding, and conflict resolution. Existing datasets either rely on limited context lengths or are tailored for static, long-context settings like book-based QA, which do not reflect the interactive, multi-turn nature of memory agents that incrementally accumulate information. Furthermore, no existing benchmarks cover all four competencies. Therefore, we introduce MemoryAgentBench, a new benchmark specifically designed for memory agents. Our benchmark combines reformulated existing datasets with newly constructed ones, covering the above four memory competencies, providing a systematic and challenging testbed for assessing memory quality. We evaluate a diverse set of memory agents, ranging from simple context-based and retrieval-augmented generation (RAG) systems to advanced agents with external memory modules and tool integration. Empirical results reveal that current methods fall short of mastering all four competencies, underscoring the need for further research into comprehensive memory mechanisms for LLM agents.
PDF112July 8, 2025