ChatPaper.aiChatPaper

Dr. MAS : Apprentissage par Renforcement Stable pour les Systèmes Multi-Agents de LLM

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

February 9, 2026
papers.authors: Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
cs.AI

papers.abstract

Les systèmes multi-agents basés sur LLM permettent un raisonnement avancé et l'utilisation d'outils via la spécialisation des rôles, mais l'apprentissage par renforcement (RL) post-entraînement fiable pour ces systèmes reste difficile. Dans ce travail, nous identifions théoriquement une raison clé de l'instabilité de l'entraînement lors de l'extension du RL basé sur les groupes aux systèmes multi-agents LLM. Nous montrons que sous une optimisation de type GRPO, une ligne de base de normalisation globale peut s'écarter des distributions de récompense d'agents divers, ce qui conduit finalement à une instabilité de la norme du gradient. Sur la base de cette constatation, nous proposons Dr. MAS, une méthode d'entraînement RL simple et stable pour les systèmes multi-agents LLM. Dr. MAS utilise un correctif par agent : normaliser les avantages par agent en utilisant les statistiques de récompense de chaque agent, ce qui calibre les échelles de gradient et stabilise considérablement l'entraînement, tant théoriquement qu'empiriquement. Au-delà de l'algorithme, Dr. MAS fournit un cadre d'entraînement RL de bout en bout pour les systèmes multi-agents LLM, prenant en charge l'orchestration scalable, la configuration flexible de service et d'optimisation LLM par agent, et la planification partagée des ressources des backends d'acteurs LLM. Nous évaluons Dr. MAS sur des benchmarks de raisonnement mathématique multi-agent et de recherche multi-tours en utilisant les modèles des séries Qwen2.5 et Qwen3. Dr. MAS obtient des gains nets par rapport au GRPO standard (par exemple, +5,6 % avg@16 et +4,6 % pass@16 en maths, et +15,2 % avg@16 et +13,1 % pass@16 en recherche) tout en éliminant largement les pics de gradient. De plus, il reste très efficace avec des assignations hétérogènes de modèles par agent tout en améliorant l'efficacité.
English
Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.
PDF111February 12, 2026