Многопользовательское глубокое исследование: Обучение многопользовательских систем с помощью M-GRPO
Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO
November 17, 2025
Авторы: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI
Аннотация
Мульти-агентные системы демонстрируют высокую производительность на задачах общего рассуждения. Однако отсутствие обучения в специализированных областях снижает их точность. Современные методы обучения тренируют единую большую языковую модель (LLM) для всех агентов системы, что может ограничивать производительность из-за различных распределений, лежащих в основе разных агентов. Следовательно, следующим шагом должна стать разработка обучения мульти-агентных систем с различными LLM. Однако этот подход создает проблемы оптимизации. Например, агенты работают на разных частотах, развертывания включают вызовы различных под-агентов, а агенты часто развертываются на отдельных серверах, что нарушает сквозной поток градиентов. Для решения этих проблем мы предлагаем M-GRPO — иерархическое расширение Group Relative Policy Optimization, предназначенное для вертикальных мульти-агентных систем с главным агентом (планировщиком) и несколькими под-агентами (исполнителями многошаговых инструментов). M-GRPO вычисляет групповые относительные преимущества как для главного, так и для под-агентов, сохраняя иерархическое распределение заслуг. Также вводится схема выравнивания траекторий, которая генерирует пакеты фиксированного размера, несмотря на переменное количество вызовов под-агентов. Мы развертываем разделенный конвейер обучения, в котором агенты работают на отдельных серверах и обмениваются минимальной статистикой через общее хранилище. Это позволяет масштабировать обучение без перекрестного распространения ошибки между серверами. В экспериментах на реальных тестовых наборах (например, GAIA, XBench-DeepSearch и WebWalkerQA) M-GRPO последовательно превосходит как одноагентный GRPO, так и мульти-агентный GRPO с замороженными под-агентами, демонстрируя улучшенную стабильность и эффективность использования выборок. Эти результаты показывают, что выравнивание гетерогенных траекторий и разделение оптимизации между специализированными агентами улучшает выполнение задач рассуждения с использованием инструментов.
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.