Sterker Samen: On-Policy Reinforcement Learning voor Collaboratieve LLM's
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs
October 13, 2025
Auteurs: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI
Samenvatting
Multi-agent systemen (MAS) en reinforcement learning (RL) worden veelvuldig gebruikt om de agentische capaciteiten van grote taalmodellen (LLMs) te verbeteren. MAS verbetert de taakprestatie door middel van rolgebaseerde orkestratie, terwijl RL omgevingsbeloningen gebruikt om sterkere beleidsregels te leren, zoals GRPO-stijl optimalisatie. Het toepassen van on-policy RL op MAS blijft echter onderbelicht en brengt unieke uitdagingen met zich mee. Algoritmisch voldoen de standaard GRPO-groeperingsaannames niet, omdat prompts variëren per rol en per beurt. Systeemtechnisch moet de trainingsstack MAS-workflow rollouts en on-policy updates ondersteunen voor zowel single-policy als multi-policy modellen.
Wij stellen AT-GRPO voor, dat bestaat uit (i) een agent- en beurtgewijs gegroepeerd RL-algoritme dat is afgestemd op MAS en (ii) een trainingssysteem dat zowel single- als multi-policy regimes ondersteunt. Over verschillende taken in games, planning, codering en wiskunde levert AT-GRPO aanzienlijke verbeteringen op. Bij langetermijnplanning verhoogt het de nauwkeurigheid van een 14,0 tot 47,0 procent single-agent RL-basislijn naar 96,0 tot 99,5 procent. Het verbetert ook de redeneerprestaties, met gemiddelde winsten van 3,87 tot 7,62 procent op coderings taken en 9,0 tot 17,93 procent op wiskunde. Code en omgevingen zijn beschikbaar op: https://github.com/pettingllms-ai/PettingLLMs.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to
enhance the agentic capabilities of large language models (LLMs). MAS improves
task performance through role-based orchestration, while RL uses environmental
rewards to learn stronger policies, such as GRPO-style optimization. However,
applying on-policy RL to MAS remains underexplored and presents unique
challenges. Algorithmically, standard GRPO grouping assumptions break down
because prompts vary by role and by turn. System-wise, the training stack must
support MAS-workflow rollouts and on-policy updates for both single-policy and
multi-policy models.
We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL
algorithm tailored to MAS and (ii) a training system that supports both single-
and multi-policy regimes. Across game, planning, coding, and math tasks,
AT-GRPO delivers substantial gains. On long-horizon planning, it increases
accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5
percent. It also improves reasoning performance, with average gains of 3.87 to
7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and
environments are available at: https://github.com/pettingllms-ai/PettingLLMs.