Agente di Intelligenza della Memoria

Abstract

Gli agenti di ricerca approfondita (DRA) integrano il ragionamento dei LLM con strumenti esterni. I sistemi di memoria consentono ai DRA di sfruttare esperienze storiche, essenziali per un ragionamento efficiente e un'evoluzione autonoma. I metodi esistenti si basano sul recupero di traiettorie simili dalla memoria per supportare il ragionamento, ma soffrono di limitazioni chiave relative all'inefficace evoluzione della memoria e ai costi crescenti di archiviazione e recupero. Per affrontare questi problemi, proponiamo un nuovo framework di Agente con Memoria Intelligente (MIA), composto da un'architettura Manager-Planner-Esecutore. Il Memory Manager è un sistema di memoria non parametrico in grado di memorizzare traiettorie di ricerca storiche compresse. Il Planner è un agente di memoria parametrico in grado di produrre piani di ricerca per le domande. L'Esecutore è un altro agente che può cercare e analizzare informazioni guidato dal piano di ricerca. Per costruire il framework MIA, adottiamo innanzitutto un paradigma di apprendimento per rinforzo alternato per migliorare la cooperazione tra Planner ed Esecutore. Inoltre, permettiamo al Planner di evolversi continuamente durante l'apprendimento in fase di test, con aggiornamenti eseguiti on-the-fly insieme all'inferenza senza interrompere il processo di ragionamento. Ulteriormente, stabiliamo un ciclo di conversione bidirezionale tra memorie parametriche e non parametriche per ottenere un'efficiente evoluzione della memoria. Infine, incorporiamo meccanismi di riflessione e giudizio non supervisionato per potenziare il ragionamento e l'auto-evoluzione in ambiente aperto. Esperimenti estesi su undici benchmark dimostrano la superiorità di MIA.

English

Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous evolution. Existing methods rely on retrieving similar trajectories from memory to aid reasoning, while suffering from key limitations of ineffective memory evolution and increasing storage and retrieval costs. To address these problems, we propose a novel Memory Intelligence Agent (MIA) framework, consisting of a Manager-Planner-Executor architecture. Memory Manager is a non-parametric memory system that can store compressed historical search trajectories. Planner is a parametric memory agent that can produce search plans for questions. Executor is another agent that can search and analyze information guided by the search plan. To build the MIA framework, we first adopt an alternating reinforcement learning paradigm to enhance cooperation between the Planner and the Executor. Furthermore, we enable the Planner to continuously evolve during test-time learning, with updates performed on-the-fly alongside inference without interrupting the reasoning process. Additionally, we establish a bidirectional conversion loop between parametric and non-parametric memories to achieve efficient memory evolution. Finally, we incorporate a reflection and an unsupervised judgment mechanisms to boost reasoning and self-evolution in the open world. Extensive experiments across eleven benchmarks demonstrate the superiority of MIA.