ChatPaper.aiChatPaper

Multi-Agent Diepgaand Onderzoek: Training van Multi-Agent Systemen met M-GRPO

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

November 17, 2025
Auteurs: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI

Samenvatting

Multi-agent systemen presteren goed op algemene redeneertaken. De afwezigheid van training in gespecialiseerde domeinen beperkt echter hun nauwkeurigheid. Huidige trainingsmethoden trainen één uniform groot taalmodel (LLM) voor alle agents in het systeem. Dit kan de prestaties beperken omdat verschillende agents onderliggend verschillende verdelingen hebben. Daarom zou het trainen van multi-agent systemen met verschillende LLM's de volgende te zetten stap moeten zijn. Deze aanpak introduceert echter optimalisatie-uitdagingen. Zo werken agents op verschillende frequenties, omvatten rollouts uiteenlopende sub-agent aanroepen, en worden agents vaak op aparte servers ingezet, wat de end-to-end gradientstroom verstoort. Om deze problemen aan te pakken, stellen we M-GRPO voor, een hiërarchische uitbreiding van Group Relative Policy Optimization ontworpen voor verticale multi-agent systemen met een hoofd-agent (planner) en meerdere sub-agents (multi-turn tool executors). M-GRPO berekent groep-relatieve advantages voor zowel hoofd- als sub-agents, waarbij hiërarchische credit assignment behouden blijft. Het introduceert ook een trajectory-alignment schema dat vaste batchgroottes genereert ondanks variabele sub-agent aanroepen. We implementeren een ontkoppeld trainingspipeline waarin agents op aparte servers draaien en minimale statistieken uitwisselen via een gedeelde opslag. Dit maakt schaalbare training mogelijk zonder backpropagatie tussen servers. In experimenten op real-world benchmarks (zoals GAIA, XBench-DeepSearch en WebWalkerQA) presteert M-GRPO consistent beter dan zowel single-agent GRPO als multi-agent GRPO met bevroren sub-agents, wat verbeterde stabiliteit en sample efficiency aantoont. Deze resultaten tonen aan dat het aligneren van heterogene trajecten en het ontkoppelen van optimalisatie over gespecialiseerde agents tool-augmented redeneertaken verbetert.
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.
PDF172December 3, 2025