Multi-Agent Deep Research: Training von Multi-Agenten-Systemen mit M-GRPO

papers.abstract

Multi-Agent-Systeme erzielen bei allgemeinen Reasoning-Aufgaben gute Ergebnisse. Allerdings beeinträchtigt das Fehlen von Training in spezialisierten Bereichen ihre Genauigkeit. Aktuelle Trainingsmethoden trainieren ein einheitliches großes Sprachmodell (LLM) für alle Agenten im System. Dies kann die Leistung aufgrund unterschiedlicher zugrundeliegender Verteilungen für verschiedene Agenten begrenzen. Daher sollte das Training von Multi-Agenten-Systemen mit unterschiedlichen LLMs der nächste zu lösende Schritt sein. Dieser Ansatz führt jedoch zu Optimierungsherausforderungen. Beispielsweise operieren Agenten mit unterschiedlichen Frequenzen, Rollouts beinhalten variable Aufrufe von Sub-Agenten, und Agenten werden häufig auf separaten Servern bereitgestellt, was den Ende-zu-Ende-Gradientenfluss unterbricht. Um diese Probleme zu adressieren, schlagen wir M-GRPO vor, eine hierarchische Erweiterung von Group Relative Policy Optimization für vertikale Multi-Agenten-Systeme mit einem Hauptagenten (Planer) und mehreren Sub-Agenten (Multi-Turn-Werkzeugausführern). M-GRPO berechnet gruppenrelative Advantages sowohl für Haupt- als auch Sub-Agenten und bewahrt dabei die hierarchische Zuordnung von Verdienst (Credit Assignment). Es führt zudem ein Trajektorien-Alignment-Schema ein, das trotz variabler Sub-Agenten-Aufrufe Batches fester Größe erzeugt. Wir setzen eine entkoppelte Trainingspipeline ein, bei der Agenten auf separaten Servern laufen und minimale Statistiken über einen gemeinsamen Speicher austauschen. Dies ermöglicht skalierbares Training ohne Backpropagation über Server hinweg. In Experimenten mit realen Benchmarks (z.B. GAIA, XBench-DeepSearch und WebWalkerQA) übertrifft M-GRPO durchgängig sowohl Single-Agent-GRPO als auch Multi-Agent-GRPO mit eingefrorenen Sub-Agenten und zeigt verbesserte Stabilität und Stichprobeneffizienz. Diese Ergebnisse demonstrieren, dass die Ausrichtung heterogener Trajektorien und die Entkopplung der Optimierung über spezialisierte Agenten hinweg werkzeuggestützte Reasoning-Aufgaben verbessert.

English

Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.

Multi-Agent Deep Research: Training von Multi-Agenten-Systemen mit M-GRPO

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

papers.abstract

Support