Aprendizagem por Reforço Colaborativa com Agentes Heterogêneos

Resumo

Apresentamos o **Aprendizado por Reforço Colaborativo com Agentes Heterogêneos (HACRL)**, um novo paradigma de aprendizado que aborda as ineficiências da otimização on-policy isolada. O HACRL permite a otimização colaborativa com execução independente: agentes heterogêneos compartilham rollouts verificados durante o treinamento para melhorar mutuamente, enquanto operam de forma independente no momento da inferência. Diferente do aprendizado por reforço multiagente (MARL) baseado em LLMs, o HACRL não requer implantação coordenada e, diferentemente da destilação on-/off-policy, ele permite um aprendizado mútuo bidirecional entre agentes heterogêneos, em vez de uma transferência unidirecional do professor para o aluno. Com base nesse paradigma, propomos o **HACPO**, um algoritmo de RL colaborativo que permite o compartilhamento fundamentado de rollouts para maximizar a utilização de amostras e a transferência de conhecimento entre agentes. Para mitigar discrepâncias de capacidade e desvios na distribuição da política, o HACPO introduz quatro mecanismos específicos com garantias teóricas de estimativa imparcial de vantagem e correção na otimização. Experimentos extensos com diversas combinações de modelos heterogêneos e benchmarks de raciocínio mostram que o HACPO melhora consistentemente todos os agentes participantes, superando o GSPO em média 3,3% enquanto utiliza apenas metade do custo de rollouts.

English

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.