Plus forts ensemble : Apprentissage par renforcement en politique pour des LLM collaboratifs
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs
October 13, 2025
papers.authors: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI
papers.abstract
Les systèmes multi-agents (SMA) et l'apprentissage par renforcement (RL) sont largement utilisés pour améliorer les capacités agentiques des grands modèles de langage (LLM). Les SMA améliorent la performance des tâches grâce à une orchestration basée sur les rôles, tandis que le RL utilise les récompenses environnementales pour apprendre des politiques plus robustes, telles que l'optimisation de style GRPO. Cependant, l'application du RL on-policy aux SMA reste peu explorée et présente des défis uniques. Sur le plan algorithmique, les hypothèses de regroupement standard de GRPO s'effondrent car les prompts varient selon le rôle et le tour. Sur le plan systémique, la pile d'entraînement doit supporter les déploiements de workflows SMA et les mises à jour on-policy pour les modèles à politique unique et à politiques multiples.
Nous proposons AT-GRPO, qui inclut (i) un algorithme de RL regroupé par agent et par tour, adapté aux SMA, et (ii) un système d'entraînement supportant à la fois les régimes à politique unique et à politiques multiples. Sur des tâches de jeu, de planification, de codage et de mathématiques, AT-GRPO apporte des gains substantiels. Sur la planification à long terme, il augmente la précision d'un baseline de RL à agent unique de 14,0 à 47,0 pour cent à 96,0 à 99,5 pour cent. Il améliore également la performance en raisonnement, avec des gains moyens de 3,87 à 7,62 pour cent sur les tâches de codage et de 9,0 à 17,93 pour cent sur les mathématiques. Le code et les environnements sont disponibles à l'adresse : https://github.com/pettingllms-ai/PettingLLMs.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to
enhance the agentic capabilities of large language models (LLMs). MAS improves
task performance through role-based orchestration, while RL uses environmental
rewards to learn stronger policies, such as GRPO-style optimization. However,
applying on-policy RL to MAS remains underexplored and presents unique
challenges. Algorithmically, standard GRPO grouping assumptions break down
because prompts vary by role and by turn. System-wise, the training stack must
support MAS-workflow rollouts and on-policy updates for both single-policy and
multi-policy models.
We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL
algorithm tailored to MAS and (ii) a training system that supports both single-
and multi-policy regimes. Across game, planning, coding, and math tasks,
AT-GRPO delivers substantial gains. On long-horizon planning, it increases
accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5
percent. It also improves reasoning performance, with average gains of 3.87 to
7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and
environments are available at: https://github.com/pettingllms-ai/PettingLLMs.