Agente de Inteligencia de Memoria

Resumen

Los agentes de investigación profunda (DRA, por sus siglas en inglés) integran el razonamiento de modelos de lenguaje grandes (LLM) con herramientas externas. Los sistemas de memoria permiten a los DRA aprovechar experiencias históricas, las cuales son esenciales para un razonamiento eficiente y una evolución autónoma. Los métodos existentes se basan en recuperar trayectorias similares de la memoria para ayudar en el razonamiento, pero adolecen de limitaciones clave como una evolución de memoria ineficaz y costos crecientes de almacenamiento y recuperación. Para abordar estos problemas, proponemos un novedoso marco de Agente de Inteligencia de Memoria (MIA), que consiste en una arquitectura de Administrador-Planeador-Ejecutor. El Administrador de Memoria es un sistema de memoria no paramétrico que puede almacenar trayectorias de búsqueda históricas comprimidas. El Planeador es un agente de memoria paramétrico que puede producir planes de búsqueda para preguntas. El Ejecutor es otro agente que puede buscar y analizar información guiado por el plan de búsqueda. Para construir el marco MIA, primero adoptamos un paradigma de aprendizaje por refuerzo alternante para mejorar la cooperación entre el Planeador y el Ejecutor. Además, permitimos que el Planeador evolucione continuamente durante el aprendizaje en tiempo de prueba, con actualizaciones realizadas sobre la marcha junto con la inferencia sin interrumpir el proceso de razonamiento. Adicionalmente, establecemos un bucle de conversión bidireccional entre memorias paramétricas y no paramétricas para lograr una evolución de memoria eficiente. Finalmente, incorporamos un mecanismo de reflexión y un mecanismo de juicio no supervisado para impulsar el razonamiento y la auto-evolución en entornos abiertos. Experimentos exhaustivos en once benchmarks demuestran la superioridad de MIA.

English

Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous evolution. Existing methods rely on retrieving similar trajectories from memory to aid reasoning, while suffering from key limitations of ineffective memory evolution and increasing storage and retrieval costs. To address these problems, we propose a novel Memory Intelligence Agent (MIA) framework, consisting of a Manager-Planner-Executor architecture. Memory Manager is a non-parametric memory system that can store compressed historical search trajectories. Planner is a parametric memory agent that can produce search plans for questions. Executor is another agent that can search and analyze information guided by the search plan. To build the MIA framework, we first adopt an alternating reinforcement learning paradigm to enhance cooperation between the Planner and the Executor. Furthermore, we enable the Planner to continuously evolve during test-time learning, with updates performed on-the-fly alongside inference without interrupting the reasoning process. Additionally, we establish a bidirectional conversion loop between parametric and non-parametric memories to achieve efficient memory evolution. Finally, we incorporate a reflection and an unsupervised judgment mechanisms to boost reasoning and self-evolution in the open world. Extensive experiments across eleven benchmarks demonstrate the superiority of MIA.