ChatPaper.aiChatPaper

Recherche approfondie multi-agents : Entraînement de systèmes multi-agents avec M-GRPO

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

November 17, 2025
papers.authors: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI

papers.abstract

Les systèmes multi-agents obtiennent de bonnes performances sur les tâches de raisonnement général. Cependant, leur manque de formation dans des domaines spécialisés nuit à leur précision. Les méthodes d'entraînement actuelles forment un grand modèle de langage (LLM) unifié pour tous les agents du système. Cela peut limiter les performances en raison des distributions sous-jacentes différentes pour chaque agent. Par conséquent, l'entraînement de systèmes multi-agents avec des LLM distincts devrait constituer la prochaine étape à résoudre. Cependant, cette approche introduit des défis d'optimisation. Par exemple, les agents opèrent à différentes fréquences, les déploiements impliquent des invocations de sous-agents variables, et les agents sont souvent déployés sur des serveurs distincts, perturbant ainsi le flux de gradients de bout en bout. Pour résoudre ces problèmes, nous proposons M-GRPO, une extension hiérarchique de l'Optimisation de Politique Relative par Groupe conçue pour les systèmes multi-agents verticaux avec un agent principal (planificateur) et plusieurs sous-agents (exécuteurs d'outils multi-tours). M-GRPO calcule des avantages relatifs par groupe pour les agents principaux et sous-agents, en maintenant une attribution de crédit hiérarchique. Il introduit également un schéma d'alignement des trajectoires qui génère des lots de taille fixe malgré les invocations variables des sous-agents. Nous déployons un pipeline d'entraînement découplé dans lequel les agents s'exécutent sur des serveurs séparés et échangent des statistiques minimales via un stockage partagé. Cela permet un entraînement scalable sans rétropropagation inter-serveurs. Dans des expériences sur des benchmarks du monde réel (par exemple, GAIA, XBench-DeepSearch et WebWalkerQA), M-GRPO surpasse systématiquement à la fois l'agent unique GRPO et le multi-agent GRPO avec des sous-agents figés, démontrant une stabilité et une efficacité d'échantillonnage améliorées. Ces résultats montrent qu'aligner des trajectoires hétérogènes et découpler l'optimisation entre des agents spécialisés améliore les tâches de raisonnement assisté par outils.
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.
PDF182February 7, 2026