Geheugenintelligentie-agent

Samenvatting

Diepgaande onderzoeksagenten (DRA's) integreren LLM-redenering met externe tools. Geheugensystemen stellen DRA's in staat om historische ervaringen te benutten, wat essentieel is voor efficiënte redenering en autonome evolutie. Bestaande methodes zijn afhankelijk van het ophalen van vergelijkbare trajecten uit het geheugen om de redenering te ondersteunen, maar lijden onder cruciale beperkingen zoals inefficiënte geheugenevolutie en toenemende opslag- en ophaalkosten. Om deze problemen aan te pakken, stellen we een nieuw Memory Intelligence Agent (MIA)-raamwerk voor, bestaande uit een Manager-Planner-Uitvoerder-architectuur. De Geheugenmanager is een niet-parametrisch geheugensysteem dat gecomprimeerde historische zoektrajecten kan opslaan. De Planner is een parametrische geheugenagent die zoekplannen voor vragen kan produceren. De Uitvoerder is een andere agent die informatie kan zoeken en analyseren, geleid door het zoekplan. Om het MIA-raamwerk te bouwen, hanteren we eerst een alternerend paradigma voor versterkend leren om de samenwerking tussen de Planner en de Uitvoerder te verbeteren. Verder stellen we de Planner in staat om continu te evolueren tijdens test-time learning, waarbij updates on-the-fly naast inferentie worden uitgevoerd zonder het redeneerproces te onderbreken. Daarnaast stellen we een bidirectionele conversielus in tussen parametrische en niet-parametrische geheugens om efficiënte geheugenevolutie te bereiken. Ten slotte integreren we een reflectie- en een onbewaakt oordeelsmechanisme om de redenering en zelf-evolutie in de open wereld te stimuleren. Uitgebreide experimenten over elf benchmarks tonen de superioriteit van MIA aan.

English

Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous evolution. Existing methods rely on retrieving similar trajectories from memory to aid reasoning, while suffering from key limitations of ineffective memory evolution and increasing storage and retrieval costs. To address these problems, we propose a novel Memory Intelligence Agent (MIA) framework, consisting of a Manager-Planner-Executor architecture. Memory Manager is a non-parametric memory system that can store compressed historical search trajectories. Planner is a parametric memory agent that can produce search plans for questions. Executor is another agent that can search and analyze information guided by the search plan. To build the MIA framework, we first adopt an alternating reinforcement learning paradigm to enhance cooperation between the Planner and the Executor. Furthermore, we enable the Planner to continuously evolve during test-time learning, with updates performed on-the-fly alongside inference without interrupting the reasoning process. Additionally, we establish a bidirectional conversion loop between parametric and non-parametric memories to achieve efficient memory evolution. Finally, we incorporate a reflection and an unsupervised judgment mechanisms to boost reasoning and self-evolution in the open world. Extensive experiments across eleven benchmarks demonstrate the superiority of MIA.