Apprentissage par Renforcement Collaboratif à Agents Hétérogènes

Résumé

Nous présentons HACRL (Heterogeneous Agent Collaborative Reinforcement Learning), un nouveau paradigme d'apprentissage qui remédie aux inefficacités de l'optimisation isolée sur politique. HACRL permet une optimisation collaborative avec exécution indépendante : des agents hétérogènes partagent des épisodes vérifiés lors de l'entraînement pour s'améliorer mutuellement, tout en opérant de manière indépendante au moment de l'inférence. Contrairement à l'apprentissage par renforcement multi-agents (MARL) basé sur les LLM, HACRL ne nécessite pas de déploiement coordonné, et contrairement à la distillation sur/hors politique, il permet un apprentissage mutuel bidirectionnel entre agents hétérogènes plutôt qu'un transfert unidirectionnel du professeur vers l'élève. S'appuyant sur ce paradigme, nous proposons HACPO, un algorithme d'apprentissage par renforcement collaboratif qui permet un partage rigoureux des épisodes pour maximiser l'utilisation des échantillons et le transfert de connaissances inter-agents. Pour atténuer les écarts de capacités et les décalages de distribution de politique, HACPO introduit quatre mécanismes spécifiques avec des garanties théoriques sur l'estimation non biaisée de l'avantage et la correction de l'optimisation. Des expériences approfondies sur diverses combinaisons de modèles hétérogènes et benchmarks de raisonnement montrent que HACPO améliore systématiquement tous les agents participants, surpassant GSPO de 3,3 % en moyenne tout en n'utilisant que la moitié du coût en épisodes.

English

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.