Agente de Inteligência de Memória

Resumo

Os agentes de pesquisa profunda (DRAs) integram o raciocínio de LLM com ferramentas externas. Os sistemas de memória permitem que os DRAs aproveitem experiências históricas, essenciais para raciocínio eficiente e evolução autônoma. Os métodos existentes dependem da recuperação de trajetórias similares da memória para auxiliar o raciocínio, mas sofrem com limitações críticas de evolução ineficiente da memória e custos crescentes de armazenamento e recuperação. Para resolver esses problemas, propomos uma nova estrutura de Agente de Inteligência de Memória (MIA), composta por uma arquitetura Gerente-Planejador-Executor. O Gerenciador de Memória é um sistema de memória não paramétrico que pode armazenar trajetórias de pesquisa históricas comprimidas. O Planejador é um agente de memória paramétrico que pode produzir planos de pesquisa para questões. O Executor é outro agente que pode pesquisar e analisar informações orientadas pelo plano de pesquisa. Para construir a estrutura MIA, primeiro adotamos um paradigma de aprendizagem por reforço alternado para melhorar a cooperação entre o Planejador e o Executor. Além disso, permitimos que o Planejador evolua continuamente durante o aprendizado em tempo de teste, com atualizações realizadas dinamicamente junto com a inferência sem interromper o processo de raciocínio. Adicionalmente, estabelecemos um ciclo de conversão bidirecional entre memórias paramétricas e não paramétricas para alcançar evolução eficiente da memória. Finalmente, incorporamos mecanismos de reflexão e julgamento não supervisionado para impulsionar o raciocínio e a auto-evolução em mundo aberto. Experimentos extensos em onze benchmarks demonstram a superioridade do MIA.

English

Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous evolution. Existing methods rely on retrieving similar trajectories from memory to aid reasoning, while suffering from key limitations of ineffective memory evolution and increasing storage and retrieval costs. To address these problems, we propose a novel Memory Intelligence Agent (MIA) framework, consisting of a Manager-Planner-Executor architecture. Memory Manager is a non-parametric memory system that can store compressed historical search trajectories. Planner is a parametric memory agent that can produce search plans for questions. Executor is another agent that can search and analyze information guided by the search plan. To build the MIA framework, we first adopt an alternating reinforcement learning paradigm to enhance cooperation between the Planner and the Executor. Furthermore, we enable the Planner to continuously evolve during test-time learning, with updates performed on-the-fly alongside inference without interrupting the reasoning process. Additionally, we establish a bidirectional conversion loop between parametric and non-parametric memories to achieve efficient memory evolution. Finally, we incorporate a reflection and an unsupervised judgment mechanisms to boost reasoning and self-evolution in the open world. Extensive experiments across eleven benchmarks demonstrate the superiority of MIA.