Многопользовательское глубокое исследование: Обучение многопользовательских систем с помощью M-GRPO

Аннотация

Мульти-агентные системы демонстрируют высокую производительность на задачах общего рассуждения. Однако отсутствие обучения в специализированных областях снижает их точность. Современные методы обучения тренируют единую большую языковую модель (LLM) для всех агентов системы, что может ограничивать производительность из-за различных распределений, лежащих в основе разных агентов. Следовательно, следующим шагом должна стать разработка обучения мульти-агентных систем с различными LLM. Однако этот подход создает проблемы оптимизации. Например, агенты работают на разных частотах, развертывания включают вызовы различных под-агентов, а агенты часто развертываются на отдельных серверах, что нарушает сквозной поток градиентов. Для решения этих проблем мы предлагаем M-GRPO — иерархическое расширение Group Relative Policy Optimization, предназначенное для вертикальных мульти-агентных систем с главным агентом (планировщиком) и несколькими под-агентами (исполнителями многошаговых инструментов). M-GRPO вычисляет групповые относительные преимущества как для главного, так и для под-агентов, сохраняя иерархическое распределение заслуг. Также вводится схема выравнивания траекторий, которая генерирует пакеты фиксированного размера, несмотря на переменное количество вызовов под-агентов. Мы развертываем разделенный конвейер обучения, в котором агенты работают на отдельных серверах и обмениваются минимальной статистикой через общее хранилище. Это позволяет масштабировать обучение без перекрестного распространения ошибки между серверами. В экспериментах на реальных тестовых наборах (например, GAIA, XBench-DeepSearch и WebWalkerQA) M-GRPO последовательно превосходит как одноагентный GRPO, так и мульти-агентный GRPO с замороженными под-агентами, демонстрируя улучшенную стабильность и эффективность использования выборок. Эти результаты показывают, что выравнивание гетерогенных траекторий и разделение оптимизации между специализированными агентами улучшает выполнение задач рассуждения с использованием инструментов.

English

Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.

Многопользовательское глубокое исследование: Обучение многопользовательских систем с помощью M-GRPO

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Аннотация

Support