Investigación Profunda Multiagente: Entrenamiento de Sistemas Multiagente con M-GRPO
Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO
November 17, 2025
Autores: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI
Resumen
Los sistemas multiagente demuestran un buen rendimiento en tareas de razonamiento general. Sin embargo, la falta de entrenamiento en áreas especializadas limita su precisión. Los métodos de entrenamiento actuales utilizan un único modelo de lenguaje grande (LLM) unificado para todos los agentes del sistema. Esto puede limitar el rendimiento debido a las diferentes distribuciones subyacentes para cada agente. Por lo tanto, el siguiente paso a resolver es entrenar sistemas multiagente con LLMs distintos. No obstante, este enfoque introduce desafíos de optimización. Por ejemplo, los agentes operan a diferentes frecuencias, las ejecuciones implican invocaciones variables de subagentes, y los agentes suelen desplegarse en servidores separados, lo que interrumpe el flujo de gradientes de extremo a extremo. Para abordar estos problemas, proponemos M-GRPO, una extensión jerárquica de la Optimización de Políticas Relativas de Grupo diseñada para sistemas multiagente verticales con un agente principal (planificador) y múltiples subagentes (ejecutores de herramientas multi-turno). M-GRPO calcula ventajas relativas de grupo tanto para el agente principal como para los subagentes, manteniendo una asignación de crédito jerárquica. También introduce un esquema de alineación de trayectorias que genera lotes de tamaño fijo a pesar de las invocaciones variables de subagentes. Desplegamos una canalización de entrenamiento desacoplada en la que los agentes se ejecutan en servidores separados e intercambian estadísticas mínimas mediante un almacén compartido. Esto permite un entrenamiento escalable sin retropropagación entre servidores. En experimentos con benchmarks del mundo real (por ejemplo, GAIA, XBench-DeepSearch y WebWalkerQA), M-GRPO supera consistentemente tanto al GRPO de agente único como al GRPO multiagente con subagentes congelados, demostrando una mayor estabilidad y eficiencia muestral. Estos resultados muestran que alinear trayectorias heterogéneas y desacoplar la optimización entre agentes especializados mejora las tareas de razonamiento aumentado con herramientas.
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.