От унифицированного к гетерогенному: адаптация оптимизации стратегии к природе каждого токена
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
September 20, 2025
Авторы: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang
cs.AI
Аннотация
Обучение с подкреплением стало фундаментальной техникой для улучшения способности рассуждений в больших языковых моделях (LLMs). Однако существующие алгоритмы применяют унифицированную оптимизацию ко всем токенам, игнорируя их различные роли в процессе рассуждений. Чтобы устранить это ограничение, мы представляем Heterogeneous Adaptive Policy Optimization (HAPO) — комплексный алгоритм, учитывающий особенности токенов, который динамически адаптирует оптимизацию на основе энтропии токенов. Для сэмплирования в процессе rollout мы предлагаем Adaptive Temperature Sampling, который в реальном времени регулирует температуру сэмплирования, способствуя исследованию для токенов с высокой энтропией и сохраняя связность для токенов с низкой энтропией. Для расчета преимуществ мы вводим Token Level Group Average, который нормализует преимущества на уровне токенов, учитывая длину последовательности, как в loss-функции на основе среднего значения токенов, при этом сохраняя несмещенный подход. Затем мы разрабатываем Differential Advantage Redistribution, который использует энтропию и коэффициенты важности для модуляции обновлений, связанных с наградами, для токенов с четкими сигналами. Для clipping loss мы проектируем Asymmetric Adaptive Clipping, позволяя агрессивное снижение вероятности для шумных токенов с низкой энтропией, при этом обеспечивая исследование для токенов с высокой энтропией. Благодаря систематическому исследованию взаимосвязи между энтропией и динамикой обучения, мы внедрили обработку на уровне токенов на каждом этапе для достижения детализированного контроля. Многочисленные эксперименты демонстрируют, что HAPO стабильно превосходит DAPO на различных масштабах моделей. Наш код доступен по ссылке: https://github.com/starriver030515/HAPO.
English
Reinforcement Learning has emerged as the fundamental technique for enhancing
reasoning in LLMs. However, existing algorithms apply uniform optimization to
all tokens, ignoring their different roles in reasoning process. To address
this limitation, we introduce Heterogeneous Adaptive Policy Optimization
(HAPO), a comprehensive token-aware algorithm that dynamically adapts
optimization based on token entropy. For rollout sampling, we propose Adaptive
Temperature Sampling, which adjusts sampling temperature in real time,
promoting exploration at high-entropy tokens while preserving coherence at
low-entropy ones. For advantage calculation, we introduce Token Level Group
Average that normalizes advantages at token level, jointly accounting for
sequence-length as in token-mean loss while preserving non-biased treatment. We
then develop Differential Advantage Redistribution that leverages entropy and
importance ratios to modulate rewards-adjusting updates for tokens with clear
signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing
aggressive probability reduction for noisy low-entropy tokens while enabling
exploration for high-entropy tokens. Through systematic investigation between
entropy and training dynamics, we embedded token-level treatment into every
stages to achieve fine-grained control. Extensive experiments demonstrate that
HAPO consistently outperforms DAPO across multiple model scales. Our code can
be found in https://github.com/starriver030515/HAPO.