Агент интеллектуальной памяти

Аннотация

Агенты глубокого исследования (DRA) объединяют логические рассуждения больших языковых моделей (LLM) с внешними инструментами. Системы памяти позволяют таким агентам использовать исторический опыт, что крайне важно для эффективного логического вывода и автономной эволюции. Существующие методы полагаются на извлечение из памяти схожих траекторий для помощи в рассуждениях, однако страдают от ключевых ограничений: неэффективной эволюции памяти и растущих затрат на хранение и поиск данных. Для решения этих проблем мы предлагаем новую архитектуру Агента с Интеллектуальной Памятью (MIA), состоящую из структуры «Менеджер-Планировщик-Исполнитель». Менеджер Памяти представляет собой непараметрическую систему памяти, способную хранить сжатые исторические траектории поиска. Планировщик — это параметрический агент памяти, который может создавать планы поиска для поставленных вопросов. Исполнитель — еще один агент, который осуществляет поиск и анализ информации в соответствии с планом поиска. Для построения фреймворка MIA мы сначала применяем парадигму чередующегося обучения с подкреплением для улучшения кооперации между Планировщиком и Исполнителем. Кроме того, мы обеспечиваем возможность непрерывной эволюции Планировщика в процессе обучения на этапе тестирования, выполняя обновления на лету параллельно с логическим выводом, не прерывая процесс рассуждений. Дополнительно мы создаем двунаправленный цикл преобразования между параметрической и непараметрической памятью для достижения эффективной эволюции памяти. Наконец, мы внедряем механизмы рефлексии и неконтролируемой оценки для усиления логического вывода и саморазвития в открытой среде. Многочисленные эксперименты на одиннадцати бенчмарках демонстрируют превосходство MIA.

English

Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous evolution. Existing methods rely on retrieving similar trajectories from memory to aid reasoning, while suffering from key limitations of ineffective memory evolution and increasing storage and retrieval costs. To address these problems, we propose a novel Memory Intelligence Agent (MIA) framework, consisting of a Manager-Planner-Executor architecture. Memory Manager is a non-parametric memory system that can store compressed historical search trajectories. Planner is a parametric memory agent that can produce search plans for questions. Executor is another agent that can search and analyze information guided by the search plan. To build the MIA framework, we first adopt an alternating reinforcement learning paradigm to enhance cooperation between the Planner and the Executor. Furthermore, we enable the Planner to continuously evolve during test-time learning, with updates performed on-the-fly alongside inference without interrupting the reasoning process. Additionally, we establish a bidirectional conversion loop between parametric and non-parametric memories to achieve efficient memory evolution. Finally, we incorporate a reflection and an unsupervised judgment mechanisms to boost reasoning and self-evolution in the open world. Extensive experiments across eleven benchmarks demonstrate the superiority of MIA.