Van uniform naar heterogeen: beleidsoptimalisatie afstemmen op de aard van elk token
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
September 20, 2025
Auteurs: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang
cs.AI
Samenvatting
Reinforcement Learning is naar voren gekomen als de fundamentele techniek voor het verbeteren van redeneervaardigheden in LLM's. Bestaande algoritmen passen echter uniforme optimalisatie toe op alle tokens, zonder rekening te houden met hun verschillende rollen in het redeneerproces. Om deze beperking aan te pakken, introduceren we Heterogeneous Adaptive Policy Optimization (HAPO), een uitgebreid token-bewust algoritme dat de optimalisatie dynamisch aanpast op basis van token-entropie. Voor rollout-sampling stellen we Adaptive Temperature Sampling voor, dat de samplingtemperatuur in realtime aanpast, waardoor exploratie wordt bevorderd bij tokens met hoge entropie terwijl coherentie behouden blijft bij tokens met lage entropie. Voor de voordeelberekening introduceren we Token Level Group Average, dat voordelen normaliseert op tokenniveau, waarbij rekening wordt gehouden met sequentielengte zoals in token-mean loss, terwijl een onbevooroordeelde behandeling behouden blijft. Vervolgens ontwikkelen we Differential Advantage Redistribution, dat entropie en belangrijkheidsratio's benut om beloningsaanpassingen te moduleren voor tokens met duidelijke signalen. Voor clipping loss ontwerpen we Asymmetric Adaptive Clipping, waardoor agressieve waarschijnlijkheidsreductie mogelijk is voor ruisachtige tokens met lage entropie, terwijl exploratie wordt toegestaan voor tokens met hoge entropie. Door systematisch onderzoek naar de relatie tussen entropie en trainingsdynamiek hebben we token-level behandeling ingebed in elke fase om fijnmazige controle te bereiken. Uitgebreide experimenten tonen aan dat HAPO consequent beter presteert dan DAPO over meerdere modelschalen. Onze code is te vinden op https://github.com/starriver030515/HAPO.
English
Reinforcement Learning has emerged as the fundamental technique for enhancing
reasoning in LLMs. However, existing algorithms apply uniform optimization to
all tokens, ignoring their different roles in reasoning process. To address
this limitation, we introduce Heterogeneous Adaptive Policy Optimization
(HAPO), a comprehensive token-aware algorithm that dynamically adapts
optimization based on token entropy. For rollout sampling, we propose Adaptive
Temperature Sampling, which adjusts sampling temperature in real time,
promoting exploration at high-entropy tokens while preserving coherence at
low-entropy ones. For advantage calculation, we introduce Token Level Group
Average that normalizes advantages at token level, jointly accounting for
sequence-length as in token-mean loss while preserving non-biased treatment. We
then develop Differential Advantage Redistribution that leverages entropy and
importance ratios to modulate rewards-adjusting updates for tokens with clear
signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing
aggressive probability reduction for noisy low-entropy tokens while enabling
exploration for high-entropy tokens. Through systematic investigation between
entropy and training dynamics, we embedded token-level treatment into every
stages to achieve fine-grained control. Extensive experiments demonstrate that
HAPO consistently outperforms DAPO across multiple model scales. Our code can
be found in https://github.com/starriver030515/HAPO.