Heterogene Agent Collaboratief Versterkend Leren

Samenvatting

Wij introduceren Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), een nieuw leerparadigma dat de inefficiënties van geïsoleerde on-policy optimalisatie aanpakt. HACRL maakt collaboratieve optimalisatie met onafhankelijke uitvoering mogelijk: heterogene agents delen geverifieerde rollouts tijdens de training om elkaar wederzijds te verbeteren, terwijl ze tijdens inference onafhankelijk opereren. In tegenstelling tot op LLM's gebaseerde multi-agent reinforcement learning (MARL) vereist HACRL geen gecoördineerde inzet, en anders dan on-/off-policy distillatie maakt het bidirectioneel wederzijds leren tussen heterogene agents mogelijk in plaats van eenrichtingsverkeer van leraar naar leerling. Voortbouwend op dit paradigma stellen wij HACPO voor, een collaboratief RL-algoritme dat principieel rollout-delen mogelijk maakt om de benutting van samples en kennisoverdracht tussen agents te maximaliseren. Om capaciteitsverschillen en verschuivingen in beleidsdistributies tegen te gaan, introduceert HACPO vier toegesneden mechanismen met theoretische garanties voor zuivere advantage-schatting en optimalisatiecorrectheid. Uitgebreide experimenten met diverse heterogene modelcombinaties en redeneerbenchmarks tonen aan dat HACPO consistent alle deelnemende agents verbetert, waarbij het GSPO met gemiddeld 3,3% overtreft terwijl slechts de helft van de rollout-kosten wordt gebruikt.

English

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.