Più Forti Insieme: Apprendimento per Rinforzo On-Policy per Modelli Linguistici Collaborativi
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs
October 13, 2025
Autori: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI
Abstract
I sistemi multi-agente (MAS) e l'apprendimento per rinforzo (RL) sono ampiamente utilizzati per potenziare le capacità agentiche dei modelli linguistici di grandi dimensioni (LLM). I MAS migliorano le prestazioni nei compiti attraverso un'orchestrazione basata sui ruoli, mentre l'RL utilizza ricompense ambientali per apprendere politiche più efficaci, come l'ottimizzazione in stile GRPO. Tuttavia, l'applicazione dell'RL on-policy ai MAS rimane poco esplorata e presenta sfide uniche. Dal punto di vista algoritmico, le ipotesi standard di raggruppamento del GRPO si infrangono perché i prompt variano in base al ruolo e al turno. A livello di sistema, lo stack di addestramento deve supportare i rollout del flusso di lavoro MAS e gli aggiornamenti on-policy sia per i modelli a politica singola che per quelli a politiche multiple.
Proponiamo AT-GRPO, che include (i) un algoritmo RL raggruppato per agente e per turno, specificamente progettato per i MAS, e (ii) un sistema di addestramento che supporta sia i regimi a politica singola che quelli a politiche multiple. Su compiti di gioco, pianificazione, codifica e matematica, AT-GRPO offre miglioramenti significativi. Nella pianificazione a lungo termine, aumenta l'accuratezza da un baseline RL a singolo agente del 14,0-47,0% al 96,0-99,5%. Migliora anche le prestazioni di ragionamento, con guadagni medi del 3,87-7,62% nei compiti di codifica e del 9,0-17,93% in matematica. Il codice e gli ambienti sono disponibili su: https://github.com/pettingllms-ai/PettingLLMs.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to
enhance the agentic capabilities of large language models (LLMs). MAS improves
task performance through role-based orchestration, while RL uses environmental
rewards to learn stronger policies, such as GRPO-style optimization. However,
applying on-policy RL to MAS remains underexplored and presents unique
challenges. Algorithmically, standard GRPO grouping assumptions break down
because prompts vary by role and by turn. System-wise, the training stack must
support MAS-workflow rollouts and on-policy updates for both single-policy and
multi-policy models.
We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL
algorithm tailored to MAS and (ii) a training system that supports both single-
and multi-policy regimes. Across game, planning, coding, and math tasks,
AT-GRPO delivers substantial gains. On long-horizon planning, it increases
accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5
percent. It also improves reasoning performance, with average gains of 3.87 to
7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and
environments are available at: https://github.com/pettingllms-ai/PettingLLMs.