От унифицированного к гетерогенному: адаптация оптимизации стратегии к природе каждого токена

Аннотация

Обучение с подкреплением стало фундаментальной техникой для улучшения способности рассуждений в больших языковых моделях (LLMs). Однако существующие алгоритмы применяют унифицированную оптимизацию ко всем токенам, игнорируя их различные роли в процессе рассуждений. Чтобы устранить это ограничение, мы представляем Heterogeneous Adaptive Policy Optimization (HAPO) — комплексный алгоритм, учитывающий особенности токенов, который динамически адаптирует оптимизацию на основе энтропии токенов. Для сэмплирования в процессе rollout мы предлагаем Adaptive Temperature Sampling, который в реальном времени регулирует температуру сэмплирования, способствуя исследованию для токенов с высокой энтропией и сохраняя связность для токенов с низкой энтропией. Для расчета преимуществ мы вводим Token Level Group Average, который нормализует преимущества на уровне токенов, учитывая длину последовательности, как в loss-функции на основе среднего значения токенов, при этом сохраняя несмещенный подход. Затем мы разрабатываем Differential Advantage Redistribution, который использует энтропию и коэффициенты важности для модуляции обновлений, связанных с наградами, для токенов с четкими сигналами. Для clipping loss мы проектируем Asymmetric Adaptive Clipping, позволяя агрессивное снижение вероятности для шумных токенов с низкой энтропией, при этом обеспечивая исследование для токенов с высокой энтропией. Благодаря систематическому исследованию взаимосвязи между энтропией и динамикой обучения, мы внедрили обработку на уровне токенов на каждом этапе для достижения детализированного контроля. Многочисленные эксперименты демонстрируют, что HAPO стабильно превосходит DAPO на различных масштабах моделей. Наш код доступен по ссылке: https://github.com/starriver030515/HAPO.

English

Reinforcement Learning has emerged as the fundamental technique for enhancing reasoning in LLMs. However, existing algorithms apply uniform optimization to all tokens, ignoring their different roles in reasoning process. To address this limitation, we introduce Heterogeneous Adaptive Policy Optimization (HAPO), a comprehensive token-aware algorithm that dynamically adapts optimization based on token entropy. For rollout sampling, we propose Adaptive Temperature Sampling, which adjusts sampling temperature in real time, promoting exploration at high-entropy tokens while preserving coherence at low-entropy ones. For advantage calculation, we introduce Token Level Group Average that normalizes advantages at token level, jointly accounting for sequence-length as in token-mean loss while preserving non-biased treatment. We then develop Differential Advantage Redistribution that leverages entropy and importance ratios to modulate rewards-adjusting updates for tokens with clear signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing aggressive probability reduction for noisy low-entropy tokens while enabling exploration for high-entropy tokens. Through systematic investigation between entropy and training dynamics, we embedded token-level treatment into every stages to achieve fine-grained control. Extensive experiments demonstrate that HAPO consistently outperforms DAPO across multiple model scales. Our code can be found in https://github.com/starriver030515/HAPO.

От унифицированного к гетерогенному: адаптация оптимизации стратегии к природе каждого токена

From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

Аннотация

Support