ChatPaper.aiChatPaper

Ricerca Approfondita su Sistemi Multi-Agente: Addestramento di Sistemi Multi-Agente con M-GRPO

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

November 17, 2025
Autori: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI

Abstract

I sistemi multi-agente ottengono buone prestazioni in compiti di ragionamento generale. Tuttavia, la mancanza di formazione in aree specialistiche ne ostacola l'accuratezza. I metodi di addestramento attuali addestrano un unico grande modello linguistico (LLM) per tutti gli agenti del sistema. Ciò può limitare le prestazioni a causa delle diverse distribuzioni sottostanti per i diversi agenti. Pertanto, l'addestramento di sistemi multi-agente con LLM distinti dovrebbe essere il passo successivo da risolvere. Tuttavia, questo approccio introduce sfide di ottimizzazione. Ad esempio, gli agenti operano a frequenze diverse, i rollout coinvolgono invocazioni di sub-agenti variabili e gli agenti sono spesso distribuiti su server separati, interrompendo il flusso del gradiente end-to-end. Per affrontare questi problemi, proponiamo M-GRPO, un'estensione gerarchica dell'ottimizzazione della politica relativa di gruppo (Group Relative Policy Optimization) progettata per sistemi multi-agente verticali con un agente principale (pianificatore) e più sub-agenti (esecutori di strumenti multi-turn). M-GRPO calcola i vantaggi relativi di gruppo sia per l'agente principale che per i sub-agenti, mantenendo un'assegnazione gerarchica del merito. Introduce inoltre uno schema di allineamento delle traiettorie che genera batch di dimensione fissa nonostante le invocazioni variabili dei sub-agenti. Implementiamo una pipeline di addestramento disaccoppiata in cui gli agenti vengono eseguiti su server separati e scambiano statistiche minime tramite un archivio condiviso. Ciò consente un addestramento scalabile senza backpropagation tra server. Negli esperimenti su benchmark del mondo reale (ad esempio, GAIA, XBench-DeepSearch e WebWalkerQA), M-GRPO supera costantemente sia GRPO ad agente singolo che GRPO multi-agente con sub-agenti congelati, dimostrando una stabilità e un'efficienza campionaria migliorate. Questi risultati mostrano che allineare traiettorie eterogenee e disaccoppiare l'ottimizzazione tra agenti specializzati migliora i compiti di ragionamento potenziati da strumenti.
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.
PDF172December 3, 2025