De Uniforme a Heterogéneo: Adaptando la Optimización de Políticas a la Naturaleza de Cada Token

Resumen

El Aprendizaje por Refuerzo ha surgido como la técnica fundamental para mejorar el razonamiento en los LLMs (Modelos de Lenguaje de Gran Escala). Sin embargo, los algoritmos existentes aplican una optimización uniforme a todos los tokens, ignorando sus diferentes roles en el proceso de razonamiento. Para abordar esta limitación, presentamos la Optimización de Política Adaptativa Heterogénea (HAPO), un algoritmo integral consciente de los tokens que se adapta dinámicamente a la optimización basada en la entropía de los tokens. Para el muestreo de rollouts, proponemos el Muestreo de Temperatura Adaptativa, que ajusta la temperatura de muestreo en tiempo real, promoviendo la exploración en tokens de alta entropía mientras preserva la coherencia en aquellos de baja entropía. Para el cálculo de ventajas, introducimos el Promedio Grupal a Nivel de Token, que normaliza las ventajas a nivel de token, considerando conjuntamente la longitud de la secuencia como en la pérdida de media por token, mientras mantiene un tratamiento no sesgado. Luego desarrollamos la Redistribución Diferencial de Ventajas, que aprovecha la entropía y las razones de importancia para modular las actualizaciones de recompensas, ajustándolas para tokens con señales claras. Para la pérdida de recorte, diseñamos el Recorte Adaptativo Asimétrico, permitiendo una reducción agresiva de probabilidad para tokens ruidosos de baja entropía, mientras habilita la exploración para tokens de alta entropía. A través de una investigación sistemática entre la entropía y la dinámica de entrenamiento, hemos integrado el tratamiento a nivel de token en cada etapa para lograr un control de grano fino. Experimentos extensivos demuestran que HAPO supera consistentemente a DAPO en múltiples escalas de modelos. Nuestro código se puede encontrar en https://github.com/starriver030515/HAPO.

English

Reinforcement Learning has emerged as the fundamental technique for enhancing reasoning in LLMs. However, existing algorithms apply uniform optimization to all tokens, ignoring their different roles in reasoning process. To address this limitation, we introduce Heterogeneous Adaptive Policy Optimization (HAPO), a comprehensive token-aware algorithm that dynamically adapts optimization based on token entropy. For rollout sampling, we propose Adaptive Temperature Sampling, which adjusts sampling temperature in real time, promoting exploration at high-entropy tokens while preserving coherence at low-entropy ones. For advantage calculation, we introduce Token Level Group Average that normalizes advantages at token level, jointly accounting for sequence-length as in token-mean loss while preserving non-biased treatment. We then develop Differential Advantage Redistribution that leverages entropy and importance ratios to modulate rewards-adjusting updates for tokens with clear signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing aggressive probability reduction for noisy low-entropy tokens while enabling exploration for high-entropy tokens. Through systematic investigation between entropy and training dynamics, we embedded token-level treatment into every stages to achieve fine-grained control. Extensive experiments demonstrate that HAPO consistently outperforms DAPO across multiple model scales. Our code can be found in https://github.com/starriver030515/HAPO.

De Uniforme a Heterogéneo: Adaptando la Optimización de Políticas a la Naturaleza de Cada Token

From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

Resumen

Support