Optimierung agentenbasierter Systeme im Arbeitsfluss für effektive Planung und Werkzeugnutzung
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
October 7, 2025
papers.authors: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu
cs.AI
papers.abstract
Ergebnisorientiertes Reinforcement Learning hat die Argumentationsfähigkeit großer Sprachmodelle (LLMs) vorangetrieben, doch die vorherrschenden, werkzeuggestützten Ansätze trainieren eine einzige, monolithische Policy, die Gedanken und Werkzeugaufrufe im vollen Kontext verschachtelt; dies skaliert schlecht mit langen Zeithorizonten und diversen Werkzeugen und generalisiert schwach auf neue Szenarien. Agentenbasierte Systeme bieten eine vielversprechende Alternative, indem sie die Arbeit auf spezialisierte Module verteilen, doch die meisten bleiben trainingsfrei oder verlassen sich auf Offline-Training, das von den Live-Dynamiken der mehrstufigen Interaktion entkoppelt ist. Wir stellen AgentFlow vor, ein trainierbares, im-Fluss-agierendes agentenbasiertes Framework, das vier Module (Planer, Ausführer, Prüfer, Generator) durch einen sich entwickelnden Speicher koordiniert und seinen Planer direkt innerhalb der mehrstufigen Schleife optimiert. Um on-policy in Live-Umgebungen zu trainieren, schlagen wir Flow-basierte Group Refined Policy Optimization (Flow-GRPO) vor, die die Zuweisung von Krediten bei langen Zeithorizonten und spärlichen Belohnungen bewältigt, indem sie die mehrstufige Optimierung in eine Sequenz handhabbarer einstufiger Policy-Updates umwandelt. Es sendet ein einziges, verifizierbares Ergebnis auf Trajektorienebene an jede Stufe, um lokale Planerentscheidungen mit globalem Erfolg abzustimmen, und stabilisiert das Lernen mit gruppennormalisierten Vorteilen. Über zehn Benchmarks hinweg übertrifft AgentFlow mit einem 7B-skaligen Backbone die leistungsstärksten Baselines mit durchschnittlichen Genauigkeitssteigerungen von 14,9 % bei Suchaufgaben, 14,0 % bei agentenbasierten Aufgaben, 14,5 % bei mathematischen Aufgaben und 4,1 % bei wissenschaftlichen Aufgaben und übertrifft sogar größere proprietäre Modelle wie GPT-4o. Weitere Analysen bestätigen die Vorteile der im-Fluss-Optimierung und zeigen verbesserte Planung, erhöhte Zuverlässigkeit bei Werkzeugaufrufen und positive Skalierung mit Modellgröße und Argumentationsschritten.
English
Outcome-driven reinforcement learning has advanced reasoning in large
language models (LLMs), but prevailing tool-augmented approaches train a
single, monolithic policy that interleaves thoughts and tool calls under full
context; this scales poorly with long horizons and diverse tools and
generalizes weakly to new scenarios. Agentic systems offer a promising
alternative by decomposing work across specialized modules, yet most remain
training-free or rely on offline training decoupled from the live dynamics of
multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow
agentic framework that coordinates four modules (planner, executor, verifier,
generator) through an evolving memory and directly optimizes its planner inside
the multi-turn loop. To train on-policy in live environments, we propose
Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles
long-horizon, sparse-reward credit assignment by converting multi-turn
optimization into a sequence of tractable single-turn policy updates. It
broadcasts a single, verifiable trajectory-level outcome to every turn to align
local planner decisions with global success and stabilizes learning with
group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale
backbone outperforms top-performing baselines with average accuracy gains of
14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on
scientific tasks, even surpassing larger proprietary models like GPT-4o.
Further analyses confirm the benefits of in-the-flow optimization, showing
improved planning, enhanced tool-calling reliability, and positive scaling with
model size and reasoning turns.