Dr. MAS: Stabiele Versterkingsleren voor Multi-Agent LLM-Systemen

Samenvatting

Multi-agent LLM-systemen maken geavanceerd redeneren en gereedschapsgebruik mogelijk via specialisatie van rollen, maar betrouwbare reinforcement learning (RL) na de training voor dergelijke systemen blijft moeilijk. In dit werk wijzen we theoretisch een belangrijke oorzaak aan van trainingsinstabiliteit bij het uitbreiden van op groepen gebaseerde RL naar multi-agent LLM-systemen. We tonen aan dat onder GRPO-stijl optimalisatie, een globale normalisatie-baseline kan afwijken van de diverse beloningsverdelingen van agents, wat uiteindelijk leidt tot gradient-norm instabiliteit. Gebaseerd op deze bevinding stellen we Dr. MAS voor, een eenvoudig en stabiel RL-trainingsrecept voor multi-agent LLM-systemen. Dr. MAS gebruikt een agent-gerichte oplossing: het normaliseren van voordelen per agent met behulp van de eigen beloningsstatistieken van elke agent, wat de gradientschalen kalibreert en de training zowel theoretisch als empirisch aanzienlijk stabiliseert. Naast het algoritme biedt Dr. MAS een end-to-end RL-trainingsraamwerk voor multi-agent LLM-systemen, met ondersteuning voor schaalbare orchestratie, flexibele per-agent LLM-serving en optimalisatieconfiguraties, en gedeelde resourceplanning van LLM-actor-backends. We evalueren Dr. MAS op multi-agent wiskundig redeneer- en multi-turn zoekbenchmarks met behulp van Qwen2.5- en Qwen3-serie modellen. Dr. MAS behaalt duidelijke verbeteringen ten opzichte van standaard GRPO (bijv. +5,6% avg@16 en +4,6% pass@16 op wiskunde, en +15,2% avg@16 en +13,1% pass@16 op zoeken) terwijl gradientpieken grotendeels worden geëlimineerd. Bovendien blijft het zeer effectief onder heterogene agent-modeltoewijzingen terwijl de efficiëntie verbetert.

English

Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.

Dr. MAS: Stabiele Versterkingsleren voor Multi-Agent LLM-Systemen

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Samenvatting

Support