Dr. MAS: Aprendizagem por Reforço Estável para Sistemas Multiagente de LLM

Resumo

Os sistemas de LLM multiagente permitem raciocínio avançado e uso de ferramentas através da especialização de papéis, mas o treinamento por reforço (RL) pós-treinamento confiável para tais sistemas permanece difícil. Neste trabalho, identificamos teoricamente uma razão fundamental para a instabilidade do treinamento ao estender o RL baseado em grupo para sistemas de LLM multiagente. Mostramos que, sob a otimização no estilo GRPO, uma linha de base de normalização global pode se desviar das distribuições de recompensa de agentes diversos, o que acaba levando à instabilidade da norma do gradiente. Com base nesta descoberta, propomos o Dr. MAS, uma receita de treinamento de RL simples e estável para sistemas de LLM multiagente. O Dr. MAS usa um remédio por agente: normalizando as vantagens por agente usando as estatísticas de recompensa de cada agente, o que calibra as escalas de gradiente e estabiliza drasticamente o treinamento, tanto teoricamente quanto empiricamente. Além do algoritmo, o Dr. MAS fornece uma estrutura de treinamento de RL de ponta a ponta para sistemas de LLM multiagente, suportando orquestração escalável, configurações flexíveis de serviço e otimização de LLM por agente, e agendamento compartilhado de recursos de backends de atores de LLM. Avaliamos o Dr. MAS em benchmarks de raciocínio matemático multiagente e busca multi-turno usando os modelos das séries Qwen2.5 e Qwen3. O Dr. MAS alcança ganhos claros sobre o GRPO padrão (por exemplo, +5,6% avg@16 e +4,6% pass@16 em matemática, e +15,2% avg@16 e +13,1% pass@16 em busca) enquanto elimina amplamente os picos de gradiente. Além disso, mantém-se altamente eficaz sob atribuições heterogêneas de modelos de agente, melhorando a eficiência.

English

Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.

Dr. MAS: Aprendizagem por Reforço Estável para Sistemas Multiagente de LLM

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Resumo

Support