Agent d'Intelligence de la Mémoire

Résumé

Les agents de recherche approfondie (DRA) intègrent le raisonnement des grands modèles de langage (LLM) avec des outils externes. Les systèmes de mémoire permettent aux DRA d'exploiter les expériences historiques, essentielles pour un raisonnement efficace et une évolution autonome. Les méthodes existantes reposent sur la récupération de trajectoires similaires en mémoire pour aider au raisonnement, mais souffrent de limitations importantes : une évolution mémoire inefficace et des coûts de stockage et de récupération croissants. Pour résoudre ces problèmes, nous proposons un nouveau cadre d'Agent à Mémoire Intelligente (MIA), basé sur une architecture Manager-Planner-Executor. Le Gestionnaire de Mémoire est un système de mémoire non paramétrique capable de stocker des trajectoires de recherche historiques compressées. Le Planificateur est un agent de mémoire paramétrique qui génère des plans de recherche pour les questions. L'Exécuteur est un autre agent qui recherche et analyse des informations guidé par le plan de recherche. Pour construire le cadre MIA, nous adoptons d'abord un paradigme d'apprentissage par renforcement alterné pour renforcer la coopération entre le Planificateur et l'Exécuteur. De plus, nous permettons au Planificateur d'évoluer continuellement pendant l'apprentissage en phase de test, avec des mises à jour effectuées en temps réel parallèlement à l'inférence sans interrompre le processus de raisonnement. Par ailleurs, nous établissons une boucle de conversion bidirectionnelle entre les mémoires paramétriques et non paramétriques pour réaliser une évolution mémoire efficace. Enfin, nous intégrons un mécanisme de réflexion et un mécanisme de jugement non supervisé pour stimuler le raisonnement et l'auto-évolution dans un environnement ouvert. Des expériences approfondies sur onze benchmarks démontrent la supériorité de MIA.

English

Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous evolution. Existing methods rely on retrieving similar trajectories from memory to aid reasoning, while suffering from key limitations of ineffective memory evolution and increasing storage and retrieval costs. To address these problems, we propose a novel Memory Intelligence Agent (MIA) framework, consisting of a Manager-Planner-Executor architecture. Memory Manager is a non-parametric memory system that can store compressed historical search trajectories. Planner is a parametric memory agent that can produce search plans for questions. Executor is another agent that can search and analyze information guided by the search plan. To build the MIA framework, we first adopt an alternating reinforcement learning paradigm to enhance cooperation between the Planner and the Executor. Furthermore, we enable the Planner to continuously evolve during test-time learning, with updates performed on-the-fly alongside inference without interrupting the reasoning process. Additionally, we establish a bidirectional conversion loop between parametric and non-parametric memories to achieve efficient memory evolution. Finally, we incorporate a reflection and an unsupervised judgment mechanisms to boost reasoning and self-evolution in the open world. Extensive experiments across eleven benchmarks demonstrate the superiority of MIA.