De Uniforme a Heterogéneo: Adaptando la Optimización de Políticas a la Naturaleza de Cada Token
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
September 20, 2025
Autores: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang
cs.AI
Resumen
El Aprendizaje por Refuerzo ha surgido como la técnica fundamental para mejorar el razonamiento en los LLMs (Modelos de Lenguaje de Gran Escala). Sin embargo, los algoritmos existentes aplican una optimización uniforme a todos los tokens, ignorando sus diferentes roles en el proceso de razonamiento. Para abordar esta limitación, presentamos la Optimización de Política Adaptativa Heterogénea (HAPO), un algoritmo integral consciente de los tokens que se adapta dinámicamente a la optimización basada en la entropía de los tokens. Para el muestreo de rollouts, proponemos el Muestreo de Temperatura Adaptativa, que ajusta la temperatura de muestreo en tiempo real, promoviendo la exploración en tokens de alta entropía mientras preserva la coherencia en aquellos de baja entropía. Para el cálculo de ventajas, introducimos el Promedio Grupal a Nivel de Token, que normaliza las ventajas a nivel de token, considerando conjuntamente la longitud de la secuencia como en la pérdida de media por token, mientras mantiene un tratamiento no sesgado. Luego desarrollamos la Redistribución Diferencial de Ventajas, que aprovecha la entropía y las razones de importancia para modular las actualizaciones de recompensas, ajustándolas para tokens con señales claras. Para la pérdida de recorte, diseñamos el Recorte Adaptativo Asimétrico, permitiendo una reducción agresiva de probabilidad para tokens ruidosos de baja entropía, mientras habilita la exploración para tokens de alta entropía. A través de una investigación sistemática entre la entropía y la dinámica de entrenamiento, hemos integrado el tratamiento a nivel de token en cada etapa para lograr un control de grano fino. Experimentos extensivos demuestran que HAPO supera consistentemente a DAPO en múltiples escalas de modelos. Nuestro código se puede encontrar en https://github.com/starriver030515/HAPO.
English
Reinforcement Learning has emerged as the fundamental technique for enhancing
reasoning in LLMs. However, existing algorithms apply uniform optimization to
all tokens, ignoring their different roles in reasoning process. To address
this limitation, we introduce Heterogeneous Adaptive Policy Optimization
(HAPO), a comprehensive token-aware algorithm that dynamically adapts
optimization based on token entropy. For rollout sampling, we propose Adaptive
Temperature Sampling, which adjusts sampling temperature in real time,
promoting exploration at high-entropy tokens while preserving coherence at
low-entropy ones. For advantage calculation, we introduce Token Level Group
Average that normalizes advantages at token level, jointly accounting for
sequence-length as in token-mean loss while preserving non-biased treatment. We
then develop Differential Advantage Redistribution that leverages entropy and
importance ratios to modulate rewards-adjusting updates for tokens with clear
signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing
aggressive probability reduction for noisy low-entropy tokens while enabling
exploration for high-entropy tokens. Through systematic investigation between
entropy and training dynamics, we embedded token-level treatment into every
stages to achieve fine-grained control. Extensive experiments demonstrate that
HAPO consistently outperforms DAPO across multiple model scales. Our code can
be found in https://github.com/starriver030515/HAPO.