Гетерогенное совместное обучение с подкреплением для множества агентов

Аннотация

Мы представляем Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) — новую парадигму обучения, которая устраняет неэффективность изолированной оптимизации на основе стратегии (on-policy). HACRL обеспечивает совместную оптимизацию с независимым выполнением: гетерогенные агенты обмениваются проверенными траекториями (rollouts) в процессе обучения для взаимного улучшения, в то время как на этапе вывода (inference) они работают независимо. В отличие от многопользовательского обучения с подкреплением (MARL) на основе больших языковых моделей (LLM), HACRL не требует скоординированного развертывания, а в отличие от дистилляции on-policy/off-policy, она обеспечивает двунаправленное взаимное обучение между гетерогенными агентами вместо однонаправленной передачи знаний от учителя к ученику. Основываясь на этой парадигме, мы предлагаем HACPO — совместный алгоритм RL, который позволяет осуществлять принципиальный обмен траекториями для максимизации использования выборок и передачи знаний между агентами. Для смягчения расхождений в возможностях и сдвигов распределения стратегий HACPO вводит четыре специальных механизма с теоретическими гарантиями на несмещенность оценки преимущества (advantage) и корректность оптимизации. Многочисленные эксперименты с различными комбинациями гетерогенных моделей и тестами на рассуждение показывают, что HACPO последовательно улучшает всех участвующих агентов, превосходя GSPO в среднем на 3,3%, при использовании лишь половины затрат на генерацию траекторий.

English

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.