ChatPaper.aiChatPaper

Dr. MAS: Stabile Verstärkungslernverfahren für Multi-Agenten-LLM-Systeme

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

February 9, 2026
papers.authors: Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
cs.AI

papers.abstract

Multi-Agent-LLM-Systeme ermöglichen durch Rollenspezialisierung fortschrittliches Reasoning und Werkzeugeinsatz, dennoch bleibt zuverlässiges Reinforcement Learning (RL) als Nachtraining für solche Systeme schwierig. In dieser Arbeit identifizieren wir theoretisch einen Hauptgrund für Trainingsinstabilität, wenn gruppenbasiertes RL auf Multi-Agent-LLM-Systeme erweitert wird. Wir zeigen, dass bei GRPO-artiger Optimierung eine globale Normalisierungs-Baseline von den unterschiedlichen Belohnungsverteilungen der Agenten abweichen kann, was letztendlich zu Gradientennorm-Instabilität führt. Basierend auf dieser Erkenntnis schlagen wir Dr. MAS vor, ein einfaches und stabiles RL-Trainingsverfahren für Multi-Agent-LLM-Systeme. Dr. MAS verwendet ein agentenweises Gegenmittel: die Normalisierung der Advantages pro Agent unter Verwendung der jeweiligen agenteneigenen Belohnungsstatistik, was die Gradientenskalen kalibriert und das Training sowohl theoretisch als auch empirisch dramatisch stabilisiert. Über den Algorithmus hinaus bietet Dr. MAS einen end-to-end RL-Trainingsrahmen für Multi-Agent-LLM-Systeme, der skalierbare Orchestrierung, flexible pro-Agent-LLM-Auslieferung und Optimierungskonfigurationen sowie gemeinsame Ressourcenplanung von LLM-Actor-Backends unterstützt. Wir evaluieren Dr. MAS an Multi-Agent-Mathe-Reasoning- und Multi-Turn-Such-Benchmarks mit Qwen2.5- und Qwen3-Serienmodellen. Dr. MAS erzielt deutliche Verbesserungen gegenüber vanilla GRPO (z.B. +5,6 % avg@16 und +4,6 % pass@16 bei Mathe, sowie +15,2 % avg@16 und +13,1 % pass@16 bei der Suche) und eliminiert Gradientenspitzen weitgehend. Darüber hinaus bleibt es bei heterogenen Agenten-Modell-Zuordnungen hocheffektiv und verbessert gleichzeitig die Effizienz.
English
Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.
PDF111February 12, 2026