Optimisation des systèmes agentiques en flux pour une planification et une utilisation d'outils efficaces

papers.abstract

L'apprentissage par renforcement axé sur les résultats a fait progresser le raisonnement dans les grands modèles de langage (LLMs), mais les approches prédominantes basées sur des outils entraînent une politique unique et monolithique qui entrelace les pensées et les appels d'outils dans un contexte complet ; cela évolue mal avec des horizons temporels longs et des outils diversifiés, et généralise faiblement à de nouveaux scénarios. Les systèmes agentiques offrent une alternative prometteuse en décomposant le travail entre des modules spécialisés, mais la plupart restent sans entraînement ou reposent sur un entraînement hors ligne découplé de la dynamique en temps réel des interactions multi-tours. Nous présentons AgentFlow, un cadre agentique entraînable en flux qui coordonne quatre modules (planificateur, exécuteur, vérificateur, générateur) à travers une mémoire évolutive et optimise directement son planificateur dans la boucle multi-tours. Pour entraîner en politique dans des environnements en temps réel, nous proposons l'Optimisation de Politique Raffinée par Groupe basée sur le Flux (Flow-GRPO), qui aborde l'attribution de crédit à long terme et à récompense éparse en convertissant l'optimisation multi-tours en une séquence de mises à jour de politique mono-tour gérables. Elle diffuse un seul résultat vérifiable au niveau de la trajectoire à chaque tour pour aligner les décisions locales du planificateur avec le succès global et stabilise l'apprentissage avec des avantages normalisés par groupe. Sur dix benchmarks, AgentFlow avec un modèle de base de 7 milliards de paramètres surpasse les meilleures méthodes de référence avec des gains de précision moyens de 14,9 % sur les tâches de recherche, 14,0 % sur les tâches agentiques, 14,5 % sur les tâches mathématiques et 4,1 % sur les tâches scientifiques, dépassant même des modèles propriétaires plus grands comme GPT-4o. Des analyses supplémentaires confirment les avantages de l'optimisation en flux, montrant une planification améliorée, une fiabilité accrue des appels d'outils et une mise à l'échelle positive avec la taille du modèle et les tours de raisonnement.

English

Outcome-driven reinforcement learning has advanced reasoning in large language models (LLMs), but prevailing tool-augmented approaches train a single, monolithic policy that interleaves thoughts and tool calls under full context; this scales poorly with long horizons and diverse tools and generalizes weakly to new scenarios. Agentic systems offer a promising alternative by decomposing work across specialized modules, yet most remain training-free or rely on offline training decoupled from the live dynamics of multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow agentic framework that coordinates four modules (planner, executor, verifier, generator) through an evolving memory and directly optimizes its planner inside the multi-turn loop. To train on-policy in live environments, we propose Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles long-horizon, sparse-reward credit assignment by converting multi-turn optimization into a sequence of tractable single-turn policy updates. It broadcasts a single, verifiable trajectory-level outcome to every turn to align local planner decisions with global success and stabilizes learning with group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale backbone outperforms top-performing baselines with average accuracy gains of 14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on scientific tasks, even surpassing larger proprietary models like GPT-4o. Further analyses confirm the benefits of in-the-flow optimization, showing improved planning, enhanced tool-calling reliability, and positive scaling with model size and reasoning turns.

Optimisation des systèmes agentiques en flux pour une planification et une utilisation d'outils efficaces

In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

papers.abstract

Support