De l'uniforme à l'hétérogène : Adapter l'optimisation des politiques à la nature de chaque token
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
September 20, 2025
papers.authors: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang
cs.AI
papers.abstract
L'apprentissage par renforcement est apparu comme la technique fondamentale pour améliorer le raisonnement dans les LLM (modèles de langage de grande taille). Cependant, les algorithmes existants appliquent une optimisation uniforme à tous les tokens, ignorant leurs rôles différents dans le processus de raisonnement. Pour remédier à cette limitation, nous introduisons l'Optimisation de Politique Adaptative Hétérogène (HAPO), un algorithme complet tenant compte des tokens qui adapte dynamiquement l'optimisation en fonction de l'entropie des tokens. Pour l'échantillonnage des rollouts, nous proposons l'Échantillonnage Adaptatif de Température, qui ajuste la température d'échantillonnage en temps réel, favorisant l'exploration pour les tokens à haute entropie tout en préservant la cohérence pour ceux à faible entropie. Pour le calcul de l'avantage, nous introduisons la Moyenne de Groupe au Niveau des Tokens, qui normalise les avantages au niveau des tokens, prenant en compte conjointement la longueur des séquences comme dans la perte moyenne par token tout en préservant un traitement non biaisé. Nous développons ensuite la Redistribution Différentielle des Avantages, qui exploite l'entropie et les ratios d'importance pour moduler les mises à jour des récompenses, ajustant les tokens avec des signaux clairs. Pour la perte de clipping, nous concevons le Clipping Adaptatif Asymétrique, permettant une réduction agressive des probabilités pour les tokens bruyants à faible entropie tout en permettant l'exploration pour les tokens à haute entropie. Grâce à une investigation systématique entre l'entropie et la dynamique d'entraînement, nous avons intégré un traitement au niveau des tokens à chaque étape pour obtenir un contrôle fin. Des expériences approfondies démontrent que HAPO surpasse systématiquement DAPO à travers plusieurs échelles de modèles. Notre code est disponible à l'adresse suivante : https://github.com/starriver030515/HAPO.
English
Reinforcement Learning has emerged as the fundamental technique for enhancing
reasoning in LLMs. However, existing algorithms apply uniform optimization to
all tokens, ignoring their different roles in reasoning process. To address
this limitation, we introduce Heterogeneous Adaptive Policy Optimization
(HAPO), a comprehensive token-aware algorithm that dynamically adapts
optimization based on token entropy. For rollout sampling, we propose Adaptive
Temperature Sampling, which adjusts sampling temperature in real time,
promoting exploration at high-entropy tokens while preserving coherence at
low-entropy ones. For advantage calculation, we introduce Token Level Group
Average that normalizes advantages at token level, jointly accounting for
sequence-length as in token-mean loss while preserving non-biased treatment. We
then develop Differential Advantage Redistribution that leverages entropy and
importance ratios to modulate rewards-adjusting updates for tokens with clear
signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing
aggressive probability reduction for noisy low-entropy tokens while enabling
exploration for high-entropy tokens. Through systematic investigation between
entropy and training dynamics, we embedded token-level treatment into every
stages to achieve fine-grained control. Extensive experiments demonstrate that
HAPO consistently outperforms DAPO across multiple model scales. Our code can
be found in https://github.com/starriver030515/HAPO.