Ottimizzazione dei Sistemi Agenti in Flusso per una Pianificazione Efficace e l'Utilizzo di Strumenti
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
October 7, 2025
Autori: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu
cs.AI
Abstract
L'apprendimento per rinforzo guidato dai risultati ha fatto progredire il ragionamento nei grandi modelli linguistici (LLM), ma gli approcci prevalenti basati su strumenti addestrano una singola politica monolitica che intercala pensieri e chiamate a strumenti in un contesto completo; questo scala male con orizzonti lunghi e strumenti diversificati e generalizza debolmente a nuovi scenari. I sistemi agentici offrono un'alternativa promettente scomponendo il lavoro in moduli specializzati, tuttavia la maggior parte rimane priva di addestramento o si affida a un addestramento offline disaccoppiato dalle dinamiche in tempo reale dell'interazione multi-turn. Introduciamo AgentFlow, un framework agentico addestrabile in-the-flow che coordina quattro moduli (pianificatore, esecutore, verificatore, generatore) attraverso una memoria in evoluzione e ottimizza direttamente il suo pianificatore all'interno del ciclo multi-turn. Per addestrare on-policy in ambienti live, proponiamo l'ottimizzazione della politica raffinata basata su gruppi (Flow-GRPO), che affronta l'assegnazione del credito a lungo orizzonte e con ricompense sparse convertendo l'ottimizzazione multi-turn in una sequenza di aggiornamenti della politica a singolo turno gestibili. Trasmette un singolo risultato verificabile a livello di traiettoria a ogni turno per allineare le decisioni locali del pianificatore con il successo globale e stabilizza l'apprendimento con vantaggi normalizzati per gruppo. Su dieci benchmark, AgentFlow con un backbone di scala 7B supera le migliori baseline con guadagni medi di accuratezza del 14,9% nelle ricerche, del 14,0% nei compiti agentici, del 14,5% in quelli matematici e del 4,1% in quelli scientifici, superando persino modelli proprietari più grandi come GPT-4o. Ulteriori analisi confermano i vantaggi dell'ottimizzazione in-the-flow, mostrando una pianificazione migliorata, un'affidabilità potenziata nelle chiamate agli strumenti e una scalabilità positiva con la dimensione del modello e i turni di ragionamento.
English
Outcome-driven reinforcement learning has advanced reasoning in large
language models (LLMs), but prevailing tool-augmented approaches train a
single, monolithic policy that interleaves thoughts and tool calls under full
context; this scales poorly with long horizons and diverse tools and
generalizes weakly to new scenarios. Agentic systems offer a promising
alternative by decomposing work across specialized modules, yet most remain
training-free or rely on offline training decoupled from the live dynamics of
multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow
agentic framework that coordinates four modules (planner, executor, verifier,
generator) through an evolving memory and directly optimizes its planner inside
the multi-turn loop. To train on-policy in live environments, we propose
Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles
long-horizon, sparse-reward credit assignment by converting multi-turn
optimization into a sequence of tractable single-turn policy updates. It
broadcasts a single, verifiable trajectory-level outcome to every turn to align
local planner decisions with global success and stabilizes learning with
group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale
backbone outperforms top-performing baselines with average accuracy gains of
14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on
scientific tasks, even surpassing larger proprietary models like GPT-4o.
Further analyses confirm the benefits of in-the-flow optimization, showing
improved planning, enhanced tool-calling reliability, and positive scaling with
model size and reasoning turns.