ChatPaper.aiChatPaper

Dr. MAS: Aprendizaje por Refuerzo Estable para Sistemas Multiagente con LLM

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

February 9, 2026
Autores: Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
cs.AI

Resumen

Los sistemas multiagente de LLM permiten razonamiento avanzado y uso de herramientas mediante la especialización de roles, sin embargo, el aprendizaje por refuerzo (RL) posterior al entrenamiento para dichos sistemas sigue siendo difícil. En este trabajo, identificamos teóricamente una razón clave de la inestabilidad en el entrenamiento al extender el RL basado en grupos a sistemas multiagente de LLM. Demostramos que bajo una optimización estilo GRPO, una línea base de normalización global puede desviarse de las distribuciones de recompensa de agentes diversos, lo que finalmente conduce a inestabilidad en la norma del gradiente. Basándonos en este hallazgo, proponemos Dr. MAS, una receta de entrenamiento de RL simple y estable para sistemas multiagente de LLM. Dr. MAS utiliza un remedio por agente: normalizar las ventajas por agente usando las estadísticas de recompensa de cada agente, lo que calibra las escalas de gradiente y estabiliza dramáticamente el entrenamiento, tanto teórica como empíricamente. Más allá del algoritmo, Dr. MAS proporciona un marco de entrenamiento de RL integral para sistemas multiagente de LLM, soportando orquestación escalable, configuración flexible de servicio y optimización de LLM por agente, y planificación de recursos compartidos para los backends de actores de LLM. Evaluamos Dr. MAS en benchmarks de razonamiento matemático multiagente y búsqueda multi-turno usando los modelos de las series Qwen2.5 y Qwen3. Dr. MAS logra ganancias claras sobre GRPO básico (por ejemplo, +5.6% avg@16 y +4.6% pass@16 en matemáticas, y +15.2% avg@16 y +13.1% pass@16 en búsqueda) mientras elimina en gran medida los picos de gradiente. Además, mantiene una alta efectividad bajo asignaciones heterogéneas de modelos de agente mientras mejora la eficiencia.
English
Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.
PDF111February 12, 2026