함께 더 강해지다: 협업형 대형 언어 모델을 위한 온-정책 강화 학습
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs
October 13, 2025
저자: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI
초록
다중 에이전트 시스템(MAS)과 강화 학습(RL)은 대규모 언어 모델(LLMs)의 에이전트 능력을 향상시키기 위해 널리 사용됩니다. MAS는 역할 기반 조정을 통해 작업 성능을 개선하고, RL은 환경적 보상을 통해 GRPO 스타일 최적화와 같은 더 강력한 정책을 학습합니다. 그러나 MAS에 온-정책 RL을 적용하는 것은 아직 충분히 탐구되지 않았으며 독특한 도전 과제를 제시합니다. 알고리즘적으로는 표준 GRPO 그룹화 가정이 역할과 턴에 따라 프롬프트가 달라지기 때문에 무너집니다. 시스템적으로는 훈련 스택이 단일 정책 및 다중 정책 모델 모두에 대해 MAS 워크플로 롤아웃과 온-정책 업데이트를 지원해야 합니다.
우리는 AT-GRPO를 제안하며, 이는 (i) MAS에 맞춤화된 에이전트 및 턴 단위 그룹화 RL 알고리즘과 (ii) 단일 및 다중 정책 체계를 모두 지원하는 훈련 시스템을 포함합니다. 게임, 계획, 코딩 및 수학 작업 전반에 걸쳐 AT-GRPO는 상당한 성능 향상을 제공합니다. 장기 계획에서는 단일 에이전트 RL 기준선인 14.0에서 47.0 퍼센트의 정확도를 96.0에서 99.5 퍼센트로 증가시킵니다. 또한 코딩 작업에서 평균 3.87에서 7.62 퍼센트, 수학 작업에서 9.0에서 17.93 퍼센트의 평균 성능 향상을 이룹니다. 코드와 환경은 https://github.com/pettingllms-ai/PettingLLMs에서 확인할 수 있습니다.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to
enhance the agentic capabilities of large language models (LLMs). MAS improves
task performance through role-based orchestration, while RL uses environmental
rewards to learn stronger policies, such as GRPO-style optimization. However,
applying on-policy RL to MAS remains underexplored and presents unique
challenges. Algorithmically, standard GRPO grouping assumptions break down
because prompts vary by role and by turn. System-wise, the training stack must
support MAS-workflow rollouts and on-policy updates for both single-policy and
multi-policy models.
  We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL
algorithm tailored to MAS and (ii) a training system that supports both single-
and multi-policy regimes. Across game, planning, coding, and math tasks,
AT-GRPO delivers substantial gains. On long-horizon planning, it increases
accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5
percent. It also improves reasoning performance, with average gains of 3.87 to
7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and
environments are available at: https://github.com/pettingllms-ai/PettingLLMs.