Fondamenti di Apprendimento per Rinforzo per Sistemi di Ricerca Profonda: Una Rassegna
Reinforcement Learning Foundations for Deep Research Systems: A Survey
September 8, 2025
Autori: Wenjun Li, Zhi Chen, Jingru Lin, Hannan Cao, Wei Han, Sheng Liang, Zhi Zhang, Kuicai Dong, Dexun Li, Chen Zhang, Yong Liu
cs.AI
Abstract
I sistemi di ricerca avanzata, basati su IA agentica che risolvono compiti complessi e multi-step coordinando ragionamento, ricerca sul web aperto e file utente, e l'uso di strumenti, si stanno evolvendo verso implementazioni gerarchiche con un Planner, un Coordinator e degli Executor. Nella pratica, addestrare interi stack end-to-end rimane impraticabile, quindi la maggior parte del lavoro si concentra sull'addestramento di un singolo planner connesso a strumenti fondamentali come ricerca, navigazione e codice. Mentre il Supervised Fine-Tuning (SFT) garantisce fedeltà ai protocolli, soffre di bias di imitazione e esposizione e sottoutilizza il feedback ambientale. Metodi di allineamento delle preferenze come il Direct Preference Optimization (DPO) dipendono da schemi e proxy, sono off-policy e deboli nell'assegnazione del credito a lungo termine e nei compromessi multi-obiettivo. Un'ulteriore limitazione di SFT e DPO è la loro dipendenza da punti di decisione e sottoabilità definiti dall'uomo attraverso la progettazione di schemi e confronti etichettati. Il reinforcement learning si allinea con la ricerca a ciclo chiuso e l'interazione con strumenti ottimizzando politiche a livello di traiettoria, abilitando esplorazione, comportamenti di recupero e un'assegnazione del credito principiata, riducendo la dipendenza da tali presupposti umani e bias dei valutatori.
Questa rassegna è, a nostra conoscenza, la prima dedicata ai fondamenti del reinforcement learning per i sistemi di ricerca avanzata. Sistematizza il lavoro successivo a DeepSeek-R1 lungo tre assi: (i) sintesi e cura dei dati; (ii) metodi di RL per la ricerca agentica, coprendo stabilità, efficienza campionaria, gestione di contesti lunghi, progettazione di ricompense e credito, ottimizzazione multi-obiettivo e integrazione multimodale; e (iii) sistemi e framework di addestramento RL agentico. Copriamo anche l'architettura e la coordinazione degli agenti, oltre a valutazioni e benchmark, inclusi recenti compiti di QA, VQA, sintesi di testi lunghi e interazione con strumenti radicati in domini specifici. Distilliamo schemi ricorrenti, evidenziamo colli di bottiglia infrastrutturali e offriamo indicazioni pratiche per l'addestramento di agenti di ricerca avanzata robusti e trasparenti con il RL.
English
Deep research systems, agentic AI that solve complex, multi-step tasks by
coordinating reasoning, search across the open web and user files, and tool
use, are moving toward hierarchical deployments with a Planner, Coordinator,
and Executors. In practice, training entire stacks end-to-end remains
impractical, so most work trains a single planner connected to core tools such
as search, browsing, and code. While SFT imparts protocol fidelity, it suffers
from imitation and exposure biases and underuses environment feedback.
Preference alignment methods such as DPO are schema and proxy-dependent,
off-policy, and weak for long-horizon credit assignment and multi-objective
trade-offs. A further limitation of SFT and DPO is their reliance on human
defined decision points and subskills through schema design and labeled
comparisons. Reinforcement learning aligns with closed-loop, tool-interaction
research by optimizing trajectory-level policies, enabling exploration,
recovery behaviors, and principled credit assignment, and it reduces dependence
on such human priors and rater biases.
This survey is, to our knowledge, the first dedicated to the RL foundations
of deep research systems. It systematizes work after DeepSeek-R1 along three
axes: (i) data synthesis and curation; (ii) RL methods for agentic research
covering stability, sample efficiency, long context handling, reward and credit
design, multi-objective optimization, and multimodal integration; and (iii)
agentic RL training systems and frameworks. We also cover agent architecture
and coordination, as well as evaluation and benchmarks, including recent QA,
VQA, long-form synthesis, and domain-grounded, tool-interaction tasks. We
distill recurring patterns, surface infrastructure bottlenecks, and offer
practical guidance for training robust, transparent deep research agents with
RL.