Mais Fortes Juntos: Aprendizado por Reforço On-Policy para LLMs Colaborativos
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs
October 13, 2025
Autores: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI
Resumo
Sistemas multiagentes (MAS) e aprendizado por reforço (RL) são amplamente utilizados para aprimorar as capacidades agentivas de grandes modelos de linguagem (LLMs). O MAS melhora o desempenho em tarefas por meio de orquestração baseada em papéis, enquanto o RL utiliza recompensas ambientais para aprender políticas mais robustas, como a otimização no estilo GRPO. No entanto, a aplicação de RL on-policy ao MAS ainda é pouco explorada e apresenta desafios únicos. Algoritmicamente, as suposições padrão de agrupamento do GRPO se desfazem porque os prompts variam conforme o papel e o turno. Em termos de sistema, a infraestrutura de treinamento deve suportar rollouts de fluxos de trabalho MAS e atualizações on-policy tanto para modelos de política única quanto de múltiplas políticas.
Propomos o AT-GRPO, que inclui (i) um algoritmo de RL agrupado por agente e turno, adaptado ao MAS, e (ii) um sistema de treinamento que suporta regimes de política única e múltiplas políticas. Em tarefas de jogos, planejamento, codificação e matemática, o AT-GRPO oferece ganhos substanciais. No planejamento de longo horizonte, ele aumenta a precisão de uma linha de base de RL de agente único de 14,0 a 47,0 por cento para 96,0 a 99,5 por cento. Ele também melhora o desempenho em raciocínio, com ganhos médios de 3,87 a 7,62 por cento em tarefas de codificação e de 9,0 a 17,93 por cento em matemática. O código e os ambientes estão disponíveis em: https://github.com/pettingllms-ai/PettingLLMs.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to
enhance the agentic capabilities of large language models (LLMs). MAS improves
task performance through role-based orchestration, while RL uses environmental
rewards to learn stronger policies, such as GRPO-style optimization. However,
applying on-policy RL to MAS remains underexplored and presents unique
challenges. Algorithmically, standard GRPO grouping assumptions break down
because prompts vary by role and by turn. System-wise, the training stack must
support MAS-workflow rollouts and on-policy updates for both single-policy and
multi-policy models.
We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL
algorithm tailored to MAS and (ii) a training system that supports both single-
and multi-policy regimes. Across game, planning, coding, and math tasks,
AT-GRPO delivers substantial gains. On long-horizon planning, it increases
accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5
percent. It also improves reasoning performance, with average gains of 3.87 to
7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and
environments are available at: https://github.com/pettingllms-ai/PettingLLMs.