Pesquisa Profunda Multiagente: Treinamento de Sistemas Multiagentes com M-GRPO
Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO
November 17, 2025
Autores: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI
Resumo
Os sistemas multiagente apresentam bom desempenho em tarefas gerais de raciocínio. No entanto, a falta de treinamento em áreas especializadas prejudica sua precisão. Os métodos atuais de treinamento utilizam um único modelo de linguagem grande (LLM) unificado para todos os agentes do sistema. Esta abordagem pode limitar o desempenho devido às diferentes distribuições subjacentes a cada agente. Portanto, o próximo passo é treinar sistemas multiagente com LLMs distintos. Contudo, este método introduz desafios de otimização. Por exemplo, os agentes operam em frequências diferentes, as execuções envolvem invocações variáveis de subagentes, e os agentes são frequentemente implantados em servidores separados, interrompendo o fluxo de gradientes de ponta a ponta. Para resolver estas questões, propomos o M-GRPO, uma extensão hierárquica do Group Relative Policy Optimization projetada para sistemas multiagente verticais com um agente principal (planejador) e múltiplos subagentes (executores de ferramentas multi-turn). O M-GRPO calcula vantagens relativas de grupo para agentes principais e subagentes, mantendo uma atribuição de crédito hierárquica. Também introduz um esquema de alinhamento de trajectórias que gera lotes de tamanho fixo apesar das invocações variáveis de subagentes. Implementamos um *pipeline* de treinamento desacoplado no qual os agentes são executados em servidores separados e trocam estatísticas mínimas através de um repositório compartilhado. Isto permite um treinamento escalável sem retropropagação entre servidores. Em experiências com benchmarks do mundo real (por exemplo, GAIA, XBench-DeepSearch e WebWalkerQA), o M-GRPO supera consistentemente tanto o GRPO de agente único como o GRPO multiagente com subagentes congelados, demonstrando melhor estabilidade e eficiência amostral. Estes resultados mostram que alinhar trajectórias heterogéneas e desacoplar a otimização entre agentes especializados melhora tarefas de raciocínio aumentadas por ferramentas.
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.