ChatPaper.aiChatPaper

異種エージェント協調強化学習

Heterogeneous Agent Collaborative Reinforcement Learning

March 3, 2026
著者: Zhixia Zhang, Zixuan Huang, Xin Xia, Deqing Wang, Fuzhen Zhuang, Shuai Ma, Ning Ding, Yaodong Yang, Jianxin Li, Yikun Ban
cs.AI

要旨

我々は、孤立した方策オン最適化の非効率性を解決する新しい学習パラダイムであるHeterogeneous Agent Collaborative Reinforcement Learning(HACRL)を提案する。HACRLは「協調的最適化と独立実行」を実現する:異種エージェントが訓練時に検証済みロールアウトを共有して相互改善しつつ、推論時には独立して動作する。LLMベースのマルチエージェント強化学習(MARL)とは異なり、HACRLは協調的なデプロイを必要とせず、方策オン/オフ蒸留とも異なり、一方向的な教師から生徒への転移ではなく、異種エージェント間の双方向的な相互学習を可能にする。このパラダイムに基づき、我々は原理に基づいたロールアウト共有によってサンプル利用効率とエージェント間知識転移を最大化する協調的RLアルゴリズムHACPOを提案する。能力差と方策分布シフトを緩和するため、HACPOは不偏なアドバンテージ推定と最適化の正確性について理論的保証を持つ4つの専用メカニズムを導入する。多様な異種モデル組み合わせと推論ベンチマークにおける大規模実験により、HACPOが参加全エージェントを一貫して改善し、ロールアウトコストを半分のみ使用しながらGSPOを平均3.3%上回ることを実証した。
English
We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.
PDF1355March 6, 2026