ChatPaper.aiChatPaper

Stärker zusammen: On-Policy Reinforcement Learning für kollaborative LLMs

Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

October 13, 2025
papers.authors: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI

papers.abstract

Multi-Agent-Systeme (MAS) und Reinforcement Learning (RL) werden häufig eingesetzt, um die agentenbasierten Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern. MAS steigert die Aufgabenleistung durch rollenbasierte Orchestrierung, während RL Umweltbelohnungen nutzt, um stärkere Strategien zu erlernen, wie beispielsweise GRPO-ähnliche Optimierung. Die Anwendung von On-Policy-RL auf MAS bleibt jedoch weitgehend unerforscht und birgt einzigartige Herausforderungen. Algorithmisch brechen die Standard-GRPO-Gruppierungsannahmen zusammen, da Eingabeaufforderungen je nach Rolle und Zug variieren. Systemseitig muss der Trainingsstack MAS-Workflow-Rollouts und On-Policy-Updates sowohl für Einzelstrategie- als auch für Mehrstrategiemodelle unterstützen. Wir schlagen AT-GRPO vor, das (i) einen agenten- und zugweise gruppierten RL-Algorithmus, der auf MAS zugeschnitten ist, sowie (ii) ein Trainingssystem, das sowohl Einzel- als auch Mehrstrategie-Regime unterstützt, umfasst. Über Spiel-, Planungs-, Programmier- und Mathematikaufgaben hinweg erzielt AT-GRPO erhebliche Verbesserungen. Bei langfristiger Planung steigert es die Genauigkeit von einem 14,0- bis 47,0-Prozent-Baseline für Single-Agent-RL auf 96,0 bis 99,5 Prozent. Es verbessert auch die logische Leistung mit durchschnittlichen Steigerungen von 3,87 bis 7,62 Prozent bei Programmieraufgaben und 9,0 bis 17,93 Prozent bei Mathematik. Code und Umgebungen sind verfügbar unter: https://github.com/pettingllms-ai/PettingLLMs.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to enhance the agentic capabilities of large language models (LLMs). MAS improves task performance through role-based orchestration, while RL uses environmental rewards to learn stronger policies, such as GRPO-style optimization. However, applying on-policy RL to MAS remains underexplored and presents unique challenges. Algorithmically, standard GRPO grouping assumptions break down because prompts vary by role and by turn. System-wise, the training stack must support MAS-workflow rollouts and on-policy updates for both single-policy and multi-policy models. We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL algorithm tailored to MAS and (ii) a training system that supports both single- and multi-policy regimes. Across game, planning, coding, and math tasks, AT-GRPO delivers substantial gains. On long-horizon planning, it increases accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5 percent. It also improves reasoning performance, with average gains of 3.87 to 7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and environments are available at: https://github.com/pettingllms-ai/PettingLLMs.
PDF252October 16, 2025