Más Fuertes Juntos: Aprendizaje por Refuerzo en Política para Modelos de Lenguaje Colaborativos
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs
October 13, 2025
Autores: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI
Resumen
Los sistemas multiagente (MAS) y el aprendizaje por refuerzo (RL) se utilizan ampliamente para mejorar las capacidades agentivas de los modelos de lenguaje de gran escala (LLMs). MAS mejora el rendimiento en tareas mediante la orquestación basada en roles, mientras que RL utiliza recompensas del entorno para aprender políticas más robustas, como la optimización al estilo GRPO. Sin embargo, la aplicación de RL on-policy a MAS sigue siendo poco explorada y presenta desafíos únicos. Desde el punto de vista algorítmico, los supuestos de agrupación estándar de GRPO se descomponen porque los prompts varían según el rol y el turno. En términos de sistema, la pila de entrenamiento debe soportar rollouts de flujos de trabajo MAS y actualizaciones on-policy tanto para modelos de política única como de múltiples políticas.
Proponemos AT-GRPO, que incluye (i) un algoritmo de RL agrupado por agente y turno, adaptado a MAS, y (ii) un sistema de entrenamiento que soporta regímenes de política única y múltiples políticas. En tareas de juegos, planificación, codificación y matemáticas, AT-GRPO ofrece mejoras sustanciales. En planificación de horizonte largo, aumenta la precisión desde un 14,0 a 47,0 por ciento de la línea base de RL de agente único a 96,0 a 99,5 por ciento. También mejora el rendimiento en razonamiento, con ganancias promedio de 3,87 a 7,62 por ciento en tareas de codificación y de 9,0 a 17,93 por ciento en matemáticas. El código y los entornos están disponibles en: https://github.com/pettingllms-ai/PettingLLMs.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to
enhance the agentic capabilities of large language models (LLMs). MAS improves
task performance through role-based orchestration, while RL uses environmental
rewards to learn stronger policies, such as GRPO-style optimization. However,
applying on-policy RL to MAS remains underexplored and presents unique
challenges. Algorithmically, standard GRPO grouping assumptions break down
because prompts vary by role and by turn. System-wise, the training stack must
support MAS-workflow rollouts and on-policy updates for both single-policy and
multi-policy models.
We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL
algorithm tailored to MAS and (ii) a training system that supports both single-
and multi-policy regimes. Across game, planning, coding, and math tasks,
AT-GRPO delivers substantial gains. On long-horizon planning, it increases
accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5
percent. It also improves reasoning performance, with average gains of 3.87 to
7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and
environments are available at: https://github.com/pettingllms-ai/PettingLLMs.