Apprendimento per Rinforzo Collaborativo con Agenti Eterogenei

Abstract

Introduciamo l'Apprendimento per Rinforzo Collaborativo tra Agenti Eterogenei (HACRL), un nuovo paradigma di apprendimento che affronta le inefficienze dell'ottimizzazione on-policy isolata. HACRL abilita un'ottimizzazione collaborativa con esecuzione indipendente: agenti eterogenei condividono rollout verificati durante l'addestramento per migliorarsi reciprocamente, pur operando in modo indipendente al momento dell'inferenza. A differenza dell'apprendimento per rinforzo multi-agente (MARL) basato su LLM, HACRL non richiede un deployment coordinato e, a differenza della distillazione on-/off-policy, permette un apprendimento reciproco bidirezionale tra agenti eterogenei invece di un trasferimento unidirezionale insegnante-studente. Basandoci su questo paradigma, proponiamo HACPO, un algoritmo di RL collaborativo che consente una condivisione rigorosa dei rollout per massimizzare l'utilizzo dei campioni e il trasferimento di conoscenze tra agenti. Per mitigare le discrepanze di capacità e gli spostamenti della distribuzione delle politiche, HACPO introduce quattro meccanismi specifici con garanzie teoriche sulla stima non distorta del vantaggio e sulla correttezza dell'ottimizzazione. Esperimenti estesi su diverse combinazioni di modelli eterogenei e benchmark di ragionamento mostrano che HACPO migliora costantemente tutti gli agenti partecipanti, superando GSPO in media del 3,3% utilizzando solo la metà del costo dei rollout.

English

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.