Сильнее вместе: Обучение с подкреплением на политике для совместных языковых моделей
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs
October 13, 2025
Авторы: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI
Аннотация
Мультиагентные системы (MAS) и обучение с подкреплением (RL) широко используются для повышения агентных возможностей больших языковых моделей (LLM). MAS улучшает выполнение задач за счет ролевой оркестрации, в то время как RL использует вознаграждения из среды для обучения более эффективным стратегиям, таким как оптимизация в стиле GRPO. Однако применение on-policy RL в контексте MAS остается недостаточно изученным и сопряжено с уникальными трудностями. На алгоритмическом уровне стандартные предположения группировки GRPO нарушаются, поскольку запросы варьируются в зависимости от роли и хода. На системном уровне обучающий стек должен поддерживать развертывание рабочих процессов MAS и on-policy обновления как для моделей с одной стратегией, так и для моделей с несколькими стратегиями.
Мы предлагаем AT-GRPO, который включает (i) алгоритм RL с группировкой по агентам и ходам, адаптированный для MAS, и (ii) обучающую систему, поддерживающую как одно-, так и многополитические режимы. В задачах, связанных с играми, планированием, программированием и математикой, AT-GRPO демонстрирует значительные улучшения. В долгосрочном планировании он повышает точность с базового уровня 14,0–47,0% для одноагентного RL до 96,0–99,5%. Он также улучшает производительность в задачах на рассуждение, показывая средний прирост на 3,87–7,62% в задачах по программированию и на 9,0–17,93% в математических задачах. Код и среды доступны по адресу: https://github.com/pettingllms-ai/PettingLLMs.
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to
enhance the agentic capabilities of large language models (LLMs). MAS improves
task performance through role-based orchestration, while RL uses environmental
rewards to learn stronger policies, such as GRPO-style optimization. However,
applying on-policy RL to MAS remains underexplored and presents unique
challenges. Algorithmically, standard GRPO grouping assumptions break down
because prompts vary by role and by turn. System-wise, the training stack must
support MAS-workflow rollouts and on-policy updates for both single-policy and
multi-policy models.
We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL
algorithm tailored to MAS and (ii) a training system that supports both single-
and multi-policy regimes. Across game, planning, coding, and math tasks,
AT-GRPO delivers substantial gains. On long-horizon planning, it increases
accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5
percent. It also improves reasoning performance, with average gains of 3.87 to
7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and
environments are available at: https://github.com/pettingllms-ai/PettingLLMs.