Aprendizaje por Refuerzo Colaborativo con Agentes Heterogéneos

Resumen

Introducimos el Aprendizaje por Refuerzo Colaborativo de Agentes Heterogéneos (HACRL), un nuevo paradigma de aprendizaje que aborda las ineficiencias de la optimización aislada basada en políticas. HACRL permite una optimización colaborativa con ejecución independiente: agentes heterogéneos comparten trayectorias verificadas durante el entrenamiento para mejorar mutuamente, mientras operan de forma independiente en el momento de la inferencia. A diferencia del aprendizaje por refuerzo multiagente (MARL) basado en LLM, HACRL no requiere despliegue coordinado, y a diferencia de la destilación de políticas en línea/fuera de línea, permite un aprendizaje mutuo bidireccional entre agentes heterogéneos en lugar de una transferencia unidireccional de profesor a estudiante. Basándonos en este paradigma, proponemos HACPO, un algoritmo de RL colaborativo que permite el intercambio de trayectorias de manera fundamentada para maximizar la utilización de muestras y la transferencia de conocimiento entre agentes. Para mitigar las discrepancias de capacidad y los cambios de distribución de políticas, HACPO introduce cuatro mecanismos específicos con garantías teóricas sobre la estimación insesgada de ventajas y la corrección de la optimización. Experimentos exhaustivos en diversas combinaciones de modelos heterogéneos y benchmarks de razonamiento demuestran que HACPO mejora consistentemente a todos los agentes participantes, superando a GSPO en un promedio del 3.3% utilizando solo la mitad del coste de trayectorias.

English

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3\% while using only half the rollout cost.