ChatPaper.aiChatPaper

다중 에이전트 심층 연구: M-GRPO를 활용한 다중 에이전트 시스템 학습

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

November 17, 2025
저자: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI

초록

다중 에이전트 시스템은 일반적인 추론 과제에서 우수한 성능을 보입니다. 그러나 특화 분야에 대한 훈련 부족으로 인해 정확도가 제한됩니다. 기존 훈련 방식은 시스템 내 모든 에이전트를 위해 통합된 대규모 언어 모델(LLM)을 학습시킵니다. 이는 각 에이전트마다 상이한 데이터 분포로 인해 성능 향상에 한계가 있을 수 있습니다. 따라서 서로 다른 LLM을 활용하여 다중 에이전트 시스템을 훈련시키는 것이 다음 단계 과제입니다. 하지만 이 접근법은 최적화 문제를 야기합니다. 예를 들어, 에이전트들은 서로 다른 빈도로 운영되고, 롤아웃 과정에서 하위 에이전트 호출 횟수가 가변적이며, 에이전트들이 종종 별도의 서버에 분산 배치되어 엔드투엔드 경사 흐름이 단절됩니다. 이러한 문제를 해결하기 위해 우리는 주 에이전트(플래너)와 다수의 하위 에이전트(다중 턴 도구 실행자)로 구성된 수직적 다중 에이전트 시스템을 위해 설계된 Group Relative Policy Optimization의 계층적 확장인 M-GRPO를 제안합니다. M-GRPO는 주 에이전트와 하위 에이전트 모두에 대해 그룹 상대적 이점(group-relative advantage)을 계산하여 계층적 기여도 할당을 유지합니다. 또한 가변적인 하위 에이전트 호출에도 불구하고 고정 크기의 배치를 생성하는 궤적 정렬(trajectory-alignment) 기법을 도입합니다. 우리는 에이전트들이 별도 서버에서 운영되고 공유 저장소를 통해 최소한의 통계치만 교환하는 분리된 훈련 파이프라인을 배포합니다. 이를 통해 서버 간 역전파 없이 확장 가능한 훈련이 가능해집니다. 실제 벤치마크(GAIA, XBench-DeepSearch, WebWalkerQA) 실험에서 M-GRPO는 단일 에이전트 GRPO 및 하위 에이전트가 고정된 다중 에이전트 GRPO보다 consistently 우수한 성능을 보였으며, 향상된 안정성과 샘플 효율성을 입증했습니다. 이러한 결과는 이질적인 궤적을 정렬하고 특화된 에이전트 간 최적화를 분리함으로써 도구 강화 추론 과제의 성능이 향상됨을 보여줍니다.
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.
PDF182February 7, 2026