Optimalisatie van Agentische Systemen in de Flow voor Effectieve Planning en Toolgebruik
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
October 7, 2025
Auteurs: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu
cs.AI
Samenvatting
Resultaatgedreven reinforcement learning heeft het redeneren in grote taalmodellen (LLMs) vooruitgeholpen, maar heersende tool-augmented benaderingen trainen een enkel, monolitisch beleid dat gedachten en toolaanroepen onder volledige context verweeft; dit schaalt slecht met lange horizonnen en diverse tools en generaliseert zwak naar nieuwe scenario's. Agentische systemen bieden een veelbelovend alternatief door werk te verdelen over gespecialiseerde modules, maar de meeste blijven trainingsvrij of vertrouwen op offline training die losstaat van de live dynamiek van multi-turn interactie. We introduceren AgentFlow, een trainbaar, in-the-flow agentisch framework dat vier modules (planner, uitvoerder, verifier, generator) coördineert via een evoluerend geheugen en zijn planner direct optimaliseert binnen de multi-turn loop. Om on-policy te trainen in live omgevingen, stellen we Flow-based Group Refined Policy Optimization (Flow-GRPO) voor, dat lange-horizon, spaarzame-beloning krediettoewijzing aanpakt door multi-turn optimalisatie om te zetten in een reeks behapbare single-turn beleidsupdates. Het zendt een enkel, verifieerbaar trajectniveau resultaat uit naar elke beurt om lokale plannerbeslissingen af te stemmen op globaal succes en stabiliseert het leren met groep-genormaliseerde voordelen. Over tien benchmarks presteert AgentFlow met een 7B-schaal backbone beter dan de best presterende baselines met gemiddelde nauwkeurigheidswinsten van 14,9% op zoekopdrachten, 14,0% op agentische, 14,5% op wiskundige en 4,1% op wetenschappelijke taken, en overtreft zelfs grotere propriëtaire modellen zoals GPT-4o. Verdere analyses bevestigen de voordelen van in-the-flow optimalisatie, met verbeterde planning, verhoogde betrouwbaarheid van toolaanroepen en positieve schaalbaarheid met modelgrootte en redeneerbeurten.
English
Outcome-driven reinforcement learning has advanced reasoning in large
language models (LLMs), but prevailing tool-augmented approaches train a
single, monolithic policy that interleaves thoughts and tool calls under full
context; this scales poorly with long horizons and diverse tools and
generalizes weakly to new scenarios. Agentic systems offer a promising
alternative by decomposing work across specialized modules, yet most remain
training-free or rely on offline training decoupled from the live dynamics of
multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow
agentic framework that coordinates four modules (planner, executor, verifier,
generator) through an evolving memory and directly optimizes its planner inside
the multi-turn loop. To train on-policy in live environments, we propose
Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles
long-horizon, sparse-reward credit assignment by converting multi-turn
optimization into a sequence of tractable single-turn policy updates. It
broadcasts a single, verifiable trajectory-level outcome to every turn to align
local planner decisions with global success and stabilizes learning with
group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale
backbone outperforms top-performing baselines with average accuracy gains of
14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on
scientific tasks, even surpassing larger proprietary models like GPT-4o.
Further analyses confirm the benefits of in-the-flow optimization, showing
improved planning, enhanced tool-calling reliability, and positive scaling with
model size and reasoning turns.