Доктор MAS: Стабильное обучение с подкреплением для многoагентных систем больших языковых моделей
Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems
February 9, 2026
Авторы: Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
cs.AI
Аннотация
Мульти-агентные системы больших языковых моделей (LLM) обеспечивают продвинутые рассуждения и использование инструментов за счет специализации ролей, однако надежное последующее обучение с подкреплением (RL) для таких систем остается сложной задачей. В данной работе мы теоретически выявляем ключевую причину нестабильности обучения при распространении группового RL на мульти-агентные LLM-системы. Мы показываем, что при GRPO-оптимизации глобальный нормализующий базовый уровень (baseline) может отклоняться от разнородных распределений вознаграждений агентов, что в конечном счете приводит к нестабильности нормы градиента. Основываясь на этом выводе, мы предлагаем Dr. MAS — простой и стабильный рецепт RL-обучения для мульти-агентных LLM-систем. Dr. MAS использует средство исправления на уровне агента: нормализацию преимуществ (advantages) для каждого агента с использованием его собственной статистики вознаграждений, что калибрует масштабы градиентов и значительно стабилизирует обучение как теоретически, так и эмпирически. Помимо алгоритма, Dr. MAS предоставляет сквозную инфраструктуру RL-обучения для мульти-агентных LLM-систем, поддерживая масштабируемую оркестрацию, гибкую подачу и конфигурацию оптимизации LLM для каждого агента, а также совместное планирование ресурсов бэкендов LLM-акторов. Мы оцениваем Dr. MAS на тестах мульти-агентных математических рассуждений и многоходового поиска с использованием моделей серий Qwen2.5 и Qwen3. Dr. MAS демонстрирует явный прирост по сравнению с базовым GRPO (например, +5.6% avg@16 и +4.6% pass@16 по математике, и +15.2% avg@16 и +13.1% pass@16 по поиску), одновременно практически устраняя всплески градиента. Более того, метод остается высокоэффективным при гетерогенных назначениях моделей агентам, одновременно повышая эффективность.
English
Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.