Optimierung agentenbasierter Systeme im Arbeitsfluss für effektive Planung und Werkzeugnutzung

papers.abstract

Ergebnisorientiertes Reinforcement Learning hat die Argumentationsfähigkeit großer Sprachmodelle (LLMs) vorangetrieben, doch die vorherrschenden, werkzeuggestützten Ansätze trainieren eine einzige, monolithische Policy, die Gedanken und Werkzeugaufrufe im vollen Kontext verschachtelt; dies skaliert schlecht mit langen Zeithorizonten und diversen Werkzeugen und generalisiert schwach auf neue Szenarien. Agentenbasierte Systeme bieten eine vielversprechende Alternative, indem sie die Arbeit auf spezialisierte Module verteilen, doch die meisten bleiben trainingsfrei oder verlassen sich auf Offline-Training, das von den Live-Dynamiken der mehrstufigen Interaktion entkoppelt ist. Wir stellen AgentFlow vor, ein trainierbares, im-Fluss-agierendes agentenbasiertes Framework, das vier Module (Planer, Ausführer, Prüfer, Generator) durch einen sich entwickelnden Speicher koordiniert und seinen Planer direkt innerhalb der mehrstufigen Schleife optimiert. Um on-policy in Live-Umgebungen zu trainieren, schlagen wir Flow-basierte Group Refined Policy Optimization (Flow-GRPO) vor, die die Zuweisung von Krediten bei langen Zeithorizonten und spärlichen Belohnungen bewältigt, indem sie die mehrstufige Optimierung in eine Sequenz handhabbarer einstufiger Policy-Updates umwandelt. Es sendet ein einziges, verifizierbares Ergebnis auf Trajektorienebene an jede Stufe, um lokale Planerentscheidungen mit globalem Erfolg abzustimmen, und stabilisiert das Lernen mit gruppennormalisierten Vorteilen. Über zehn Benchmarks hinweg übertrifft AgentFlow mit einem 7B-skaligen Backbone die leistungsstärksten Baselines mit durchschnittlichen Genauigkeitssteigerungen von 14,9 % bei Suchaufgaben, 14,0 % bei agentenbasierten Aufgaben, 14,5 % bei mathematischen Aufgaben und 4,1 % bei wissenschaftlichen Aufgaben und übertrifft sogar größere proprietäre Modelle wie GPT-4o. Weitere Analysen bestätigen die Vorteile der im-Fluss-Optimierung und zeigen verbesserte Planung, erhöhte Zuverlässigkeit bei Werkzeugaufrufen und positive Skalierung mit Modellgröße und Argumentationsschritten.

English

Outcome-driven reinforcement learning has advanced reasoning in large language models (LLMs), but prevailing tool-augmented approaches train a single, monolithic policy that interleaves thoughts and tool calls under full context; this scales poorly with long horizons and diverse tools and generalizes weakly to new scenarios. Agentic systems offer a promising alternative by decomposing work across specialized modules, yet most remain training-free or rely on offline training decoupled from the live dynamics of multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow agentic framework that coordinates four modules (planner, executor, verifier, generator) through an evolving memory and directly optimizes its planner inside the multi-turn loop. To train on-policy in live environments, we propose Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles long-horizon, sparse-reward credit assignment by converting multi-turn optimization into a sequence of tractable single-turn policy updates. It broadcasts a single, verifiable trajectory-level outcome to every turn to align local planner decisions with global success and stabilizes learning with group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale backbone outperforms top-performing baselines with average accuracy gains of 14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on scientific tasks, even surpassing larger proprietary models like GPT-4o. Further analyses confirm the benefits of in-the-flow optimization, showing improved planning, enhanced tool-calling reliability, and positive scaling with model size and reasoning turns.

Optimierung agentenbasierter Systeme im Arbeitsfluss für effektive Planung und Werkzeugnutzung

In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

papers.abstract

Support