Heterogenes Agenten-Kollaboratives Reinforcement Learning

Zusammenfassung

Wir stellen Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) vor, ein neues Lernparadigma, das die Ineffizienzen isolierter On-Policy-Optimierung adressiert. HACRL ermöglicht kollaborative Optimierung mit unabhängiger Ausführung: Heterogene Agenten teilen verifizierte Rollouts während des Trainings, um sich gegenseitig zu verbessern, während sie zur Inferenzzeit unabhängig agieren. Im Gegensatz zu LLM-basiertem Multi-Agent Reinforcement Learning (MARL) erfordert HACRL keine koordinierte Bereitstellung, und anders als bei On-/Off-Policy-Distillation ermöglicht es bidirektionales gegenseitiges Lernen zwischen heterogenen Agenten anstatt einseitiger Lehrer-Schüler-Übertragung. Aufbauend auf diesem Paradigma schlagen wir HACPO vor, einen kollaborativen RL-Algorithmus, der prinzipielles Rollout-Sharing zur Maximierung der Probenausnutzung und des agentenübergreifenden Wissenstransfers ermöglicht. Um Fähigkeitsdiskrepanzen und Policy-Verteilungsverschiebungen abzumildern, führt HACPO vier maßgeschneiderte Mechanismen mit theoretischen Garantien für unverzerrte Advantage-Schätzung und Optimierungskorrektheit ein. Umfangreiche Experimente mit verschiedenen heterogenen Modellkombinationen und Reasoning-Benchmarks zeigen, dass HACPO durchgängig alle teilnehmenden Agenten verbessert und GSPO im Durchschnitt um 3,3 % übertrifft, während nur die Hälfte der Rollout-Kosten anfallen.

English

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.