Ricerca Approfondita su Sistemi Multi-Agente: Addestramento di Sistemi Multi-Agente con M-GRPO

Abstract

I sistemi multi-agente ottengono buone prestazioni in compiti di ragionamento generale. Tuttavia, la mancanza di formazione in aree specialistiche ne ostacola l'accuratezza. I metodi di addestramento attuali addestrano un unico grande modello linguistico (LLM) per tutti gli agenti del sistema. Ciò può limitare le prestazioni a causa delle diverse distribuzioni sottostanti per i diversi agenti. Pertanto, l'addestramento di sistemi multi-agente con LLM distinti dovrebbe essere il passo successivo da risolvere. Tuttavia, questo approccio introduce sfide di ottimizzazione. Ad esempio, gli agenti operano a frequenze diverse, i rollout coinvolgono invocazioni di sub-agenti variabili e gli agenti sono spesso distribuiti su server separati, interrompendo il flusso del gradiente end-to-end. Per affrontare questi problemi, proponiamo M-GRPO, un'estensione gerarchica dell'ottimizzazione della politica relativa di gruppo (Group Relative Policy Optimization) progettata per sistemi multi-agente verticali con un agente principale (pianificatore) e più sub-agenti (esecutori di strumenti multi-turn). M-GRPO calcola i vantaggi relativi di gruppo sia per l'agente principale che per i sub-agenti, mantenendo un'assegnazione gerarchica del merito. Introduce inoltre uno schema di allineamento delle traiettorie che genera batch di dimensione fissa nonostante le invocazioni variabili dei sub-agenti. Implementiamo una pipeline di addestramento disaccoppiata in cui gli agenti vengono eseguiti su server separati e scambiano statistiche minime tramite un archivio condiviso. Ciò consente un addestramento scalabile senza backpropagation tra server. Negli esperimenti su benchmark del mondo reale (ad esempio, GAIA, XBench-DeepSearch e WebWalkerQA), M-GRPO supera costantemente sia GRPO ad agente singolo che GRPO multi-agente con sub-agenti congelati, dimostrando una stabilità e un'efficienza campionaria migliorate. Questi risultati mostrano che allineare traiettorie eterogenee e disaccoppiare l'ottimizzazione tra agenti specializzati migliora i compiti di ragionamento potenziati da strumenti.

English

Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.

Ricerca Approfondita su Sistemi Multi-Agente: Addestramento di Sistemi Multi-Agente con M-GRPO

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Abstract

Support