Da uniforme a eterogeneo: adattare l'ottimizzazione delle politiche alla natura di ogni token
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
September 20, 2025
Autori: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang
cs.AI
Abstract
Il Reinforcement Learning è emerso come la tecnica fondamentale per migliorare il ragionamento nei Large Language Models (LLMs). Tuttavia, gli algoritmi esistenti applicano un'ottimizzazione uniforme a tutti i token, ignorando i loro diversi ruoli nel processo di ragionamento. Per affrontare questa limitazione, introduciamo l'Heterogeneous Adaptive Policy Optimization (HAPO), un algoritmo completo e consapevole dei token che adatta dinamicamente l'ottimizzazione in base all'entropia dei token. Per il campionamento dei rollout, proponiamo l'Adaptive Temperature Sampling, che regola la temperatura di campionamento in tempo reale, promuovendo l'esplorazione nei token ad alta entropia mentre preserva la coerenza in quelli a bassa entropia. Per il calcolo del vantaggio, introduciamo il Token Level Group Average, che normalizza i vantaggi a livello di token, tenendo conto congiuntamente della lunghezza della sequenza come nella perdita media per token, preservando un trattamento non distorto. Successivamente, sviluppiamo il Differential Advantage Redistribution, che sfrutta l'entropia e i rapporti di importanza per modulare gli aggiornamenti di aggiustamento delle ricompense per i token con segnali chiari. Per la perdita di clipping, progettiamo l'Asymmetric Adaptive Clipping, consentendo una riduzione aggressiva della probabilità per i token rumorosi a bassa entropia mentre abilita l'esplorazione per i token ad alta entropia. Attraverso un'indagine sistematica tra entropia e dinamiche di addestramento, abbiamo integrato il trattamento a livello di token in ogni fase per ottenere un controllo fine. Esperimenti estensivi dimostrano che HAPO supera costantemente il DAPO su più scale di modelli. Il nostro codice è disponibile su https://github.com/starriver030515/HAPO.
English
Reinforcement Learning has emerged as the fundamental technique for enhancing
reasoning in LLMs. However, existing algorithms apply uniform optimization to
all tokens, ignoring their different roles in reasoning process. To address
this limitation, we introduce Heterogeneous Adaptive Policy Optimization
(HAPO), a comprehensive token-aware algorithm that dynamically adapts
optimization based on token entropy. For rollout sampling, we propose Adaptive
Temperature Sampling, which adjusts sampling temperature in real time,
promoting exploration at high-entropy tokens while preserving coherence at
low-entropy ones. For advantage calculation, we introduce Token Level Group
Average that normalizes advantages at token level, jointly accounting for
sequence-length as in token-mean loss while preserving non-biased treatment. We
then develop Differential Advantage Redistribution that leverages entropy and
importance ratios to modulate rewards-adjusting updates for tokens with clear
signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing
aggressive probability reduction for noisy low-entropy tokens while enabling
exploration for high-entropy tokens. Through systematic investigation between
entropy and training dynamics, we embedded token-level treatment into every
stages to achieve fine-grained control. Extensive experiments demonstrate that
HAPO consistently outperforms DAPO across multiple model scales. Our code can
be found in https://github.com/starriver030515/HAPO.