Gedächtnis-Intelligenz-Agent

Zusammenfassung

Tiefgehende Forschungsagenten (Deep Research Agents, DRAs) integrieren das Reasoning von LLMs mit externen Werkzeugen. Gedächtnissysteme ermöglichen es DRAs, historische Erfahrungen zu nutzen, die für effizientes Reasoning und autonome Evolution entscheidend sind. Bestehende Methoden stützen sich auf das Abrufen ähnlicher Trajektorien aus dem Gedächtnis, um das Reasoning zu unterstützen, leiden jedoch unter den wesentlichen Einschränkungen ineffektiver Gedächtnisentwicklung sowie steigender Speicher- und Abrufkosten. Um diese Probleme zu lösen, schlagen wir einen neuartigen Memory Intelligence Agent (MIA)-Framework vor, der aus einer Manager-Planner-Executor-Architektur besteht. Der Memory Manager ist ein nicht-parametrisches Gedächtnissystem, das komprimierte historische Suchtrajektorien speichern kann. Der Planner ist ein parametrischer Gedächtnisagent, der Suchpläne für Fragen erstellen kann. Der Executor ist ein weiterer Agent, der Informationen suchen und analysieren kann, angeleitet durch den Suchplan. Um den MIA-Framework aufzubauen, setzen wir zunächst ein alternierendes Reinforcement-Learning-Paradigma ein, um die Kooperation zwischen Planner und Executor zu verbessern. Des Weiteren ermöglichen wir dem Planner, sich während Test-Time-Learning kontinuierlich weiterzuentwickeln, wobei Aktualisierungen on-the-fly parallel zum Inferenzvorgang ohne Unterbrechung des Reasoning-Prozesses durchgeführt werden. Zusätzlich etablieren wir eine bidirektionale Konvertierungsschleife zwischen parametrischen und nicht-parametrischen Gedächtnissen, um eine effiziente Gedächtnisentwicklung zu erreichen. Schließlich integrieren wir einen Reflexions- und einen unüberwachten Bewertungsmechanismus, um das Reasoning und die Selbstevolution in der offenen Welt zu steigern. Umfangreiche Experimente über elf Benchmarks demonstrieren die Überlegenheit von MIA.

English

Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous evolution. Existing methods rely on retrieving similar trajectories from memory to aid reasoning, while suffering from key limitations of ineffective memory evolution and increasing storage and retrieval costs. To address these problems, we propose a novel Memory Intelligence Agent (MIA) framework, consisting of a Manager-Planner-Executor architecture. Memory Manager is a non-parametric memory system that can store compressed historical search trajectories. Planner is a parametric memory agent that can produce search plans for questions. Executor is another agent that can search and analyze information guided by the search plan. To build the MIA framework, we first adopt an alternating reinforcement learning paradigm to enhance cooperation between the Planner and the Executor. Furthermore, we enable the Planner to continuously evolve during test-time learning, with updates performed on-the-fly alongside inference without interrupting the reasoning process. Additionally, we establish a bidirectional conversion loop between parametric and non-parametric memories to achieve efficient memory evolution. Finally, we incorporate a reflection and an unsupervised judgment mechanisms to boost reasoning and self-evolution in the open world. Extensive experiments across eleven benchmarks demonstrate the superiority of MIA.