ChatPaper.aiChatPaper

Dr. MAS: 다중 에이전트 LLM 시스템을 위한 안정적 강화 학습

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

February 9, 2026
저자: Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
cs.AI

초록

다중 에이전트 LLM 시스템은 역할 특화를 통해 고급 추론 및 도구 사용을 가능하게 하지만, 이러한 시스템에 대한 신뢰할 수 있는 사후 강화학습(RL) 훈련은 여전히 어렵습니다. 본 연구에서는 그룹 기반 RL을 다중 에이전트 LLM 시스템으로 확장할 때 발생하는 훈련 불안정성의 핵심 원인을 이론적으로 규명합니다. 우리는 GRPO 스타일 최적화 하에서 글로벌 정규화 기준선이 다양한 에이전트의 보상 분포와 차이를 보일 수 있으며, 이로 인해 결국 그래디언트 노름 불안정성이 발생함을 보입니다. 이러한 발견을 바탕으로, 다중 에이전트 LLM 시스템을 위한 간단하고 안정적인 RL 훈련 방법인 Dr. MAS를 제안합니다. Dr. MAS는 에이전트 단위의 해결책을 사용합니다. 즉, 각 에이전트의 자체 보상 통계를 사용하여 에이전트별 이점(advantage)을 정규화함으로써 그래디언트 규모를 조정하고 이론적 및 경험적으로 훈련을 극적으로 안정화합니다. 알고리즘을 넘어, Dr. MAS는 다중 에이전트 LLM 시스템을 위한 종단간(end-to-end) RL 훈련 프레임워크를 제공하며, 확장 가능한 오케스트레이션, 유연한 에이전트별 LLM 서빙 및 최적화 설정, 그리고 LLM 액터 백엔드의 공유 자원 스케줄링을 지원합니다. 우리는 Qwen2.5 및 Qwen3 시리즈 모델을 사용하여 다중 에이전트 수학 추론 및 다중 턴 검색 벤치마크에서 Dr. MAS를 평가합니다. Dr. MAS는 그래디언트 급증을 크게 제거하면서도 일반 GRPO 대비 뚜렷한 성능 향상을 달성합니다(예: 수학 문제에서 avg@16 +5.6%, pass@16 +4.6%, 검색 문제에서 avg@16 +15.2%, pass@16 +13.1%). 더 나아가, 이기종 에이전트-모델 할당 하에서도 효율성을 향상시키면서 높은 효과성을 유지합니다.
English
Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.
PDF111February 12, 2026