ChatPaper.aiChatPaper

De Uniforme para Heterogêneo: Adaptando a Otimização de Políticas à Natureza de Cada Token

From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

September 20, 2025
Autores: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang
cs.AI

Resumo

O Aprendizado por Reforço emergiu como a técnica fundamental para aprimorar o raciocínio em LLMs (Modelos de Linguagem de Grande Escala). No entanto, os algoritmos existentes aplicam uma otimização uniforme a todos os tokens, ignorando seus diferentes papéis no processo de raciocínio. Para abordar essa limitação, introduzimos a Otimização de Política Adaptativa Heterogênea (HAPO), um algoritmo abrangente e consciente dos tokens que se adapta dinamicamente à otimização com base na entropia dos tokens. Para a amostragem de rollouts, propomos a Amostragem de Temperatura Adaptativa, que ajusta a temperatura de amostragem em tempo real, promovendo a exploração em tokens de alta entropia enquanto preserva a coerência em tokens de baixa entropia. Para o cálculo de vantagem, introduzimos a Média de Grupo no Nível de Token, que normaliza as vantagens no nível do token, considerando conjuntamente o comprimento da sequência, como na perda média por token, enquanto mantém um tratamento não tendencioso. Em seguida, desenvolvemos a Redistribuição Diferencial de Vantagem, que aproveita a entropia e as razões de importância para modular as atualizações de ajuste de recompensas para tokens com sinais claros. Para a perda de recorte, projetamos o Recorte Adaptativo Assimétrico, permitindo uma redução agressiva de probabilidade para tokens ruidosos de baixa entropia, ao mesmo tempo em que possibilita a exploração para tokens de alta entropia. Através de uma investigação sistemática entre entropia e dinâmica de treinamento, incorporamos o tratamento no nível do token em todas as etapas para alcançar um controle refinado. Experimentos extensivos demonstram que o HAPO supera consistentemente o DAPO em múltiplas escalas de modelos. Nosso código pode ser encontrado em https://github.com/starriver030515/HAPO.
English
Reinforcement Learning has emerged as the fundamental technique for enhancing reasoning in LLMs. However, existing algorithms apply uniform optimization to all tokens, ignoring their different roles in reasoning process. To address this limitation, we introduce Heterogeneous Adaptive Policy Optimization (HAPO), a comprehensive token-aware algorithm that dynamically adapts optimization based on token entropy. For rollout sampling, we propose Adaptive Temperature Sampling, which adjusts sampling temperature in real time, promoting exploration at high-entropy tokens while preserving coherence at low-entropy ones. For advantage calculation, we introduce Token Level Group Average that normalizes advantages at token level, jointly accounting for sequence-length as in token-mean loss while preserving non-biased treatment. We then develop Differential Advantage Redistribution that leverages entropy and importance ratios to modulate rewards-adjusting updates for tokens with clear signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing aggressive probability reduction for noisy low-entropy tokens while enabling exploration for high-entropy tokens. Through systematic investigation between entropy and training dynamics, we embedded token-level treatment into every stages to achieve fine-grained control. Extensive experiments demonstrate that HAPO consistently outperforms DAPO across multiple model scales. Our code can be found in https://github.com/starriver030515/HAPO.
PDF22September 23, 2025