Von Einheitlich zu Heterogen: Anpassung der Policy-Optimierung an die Natur jedes Tokens
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
September 20, 2025
papers.authors: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang
cs.AI
papers.abstract
Reinforcement Learning hat sich als grundlegende Technik zur Verbesserung der Argumentationsfähigkeit von LLMs etabliert. Allerdings wenden bestehende Algorithmen eine einheitliche Optimierung auf alle Tokens an, ohne deren unterschiedliche Rollen im Argumentationsprozess zu berücksichtigen. Um diese Einschränkung zu überwinden, führen wir Heterogeneous Adaptive Policy Optimization (HAPO) ein, einen umfassenden token-bewussten Algorithmus, der die Optimierung dynamisch basierend auf der Token-Entropie anpasst. Für das Rollout-Sampling schlagen wir Adaptive Temperature Sampling vor, das die Sampling-Temperatur in Echtzeit anpasst und die Exploration bei Tokens mit hoher Entropie fördert, während die Kohärenz bei Tokens mit niedriger Entropie erhalten bleibt. Für die Vorteilsberechnung führen wir Token Level Group Average ein, das Vorteile auf Token-Ebene normalisiert und dabei sowohl die Sequenzlänge als auch den Token-Mittelwert-Verlust berücksichtigt, ohne eine verzerrte Behandlung zu ermöglichen. Anschließend entwickeln wir Differential Advantage Redistribution, das Entropie und Wichtigkeitsverhältnisse nutzt, um Belohnungsanpassungen für Tokens mit klaren Signalen zu modulieren. Für den Clipping-Verlust entwerfen wir Asymmetric Adaptive Clipping, das eine aggressive Wahrscheinlichkeitsreduktion für verrauschte Tokens mit niedriger Entropie ermöglicht, während die Exploration für Tokens mit hoher Entropie unterstützt wird. Durch eine systematische Untersuchung des Zusammenhangs zwischen Entropie und Trainingsdynamik haben wir die Token-bezogene Behandlung in jede Phase integriert, um eine fein abgestimmte Kontrolle zu erreichen. Umfangreiche Experimente zeigen, dass HAPO DAPO über mehrere Modellgrößen hinweg konsequent übertrifft. Unser Code ist unter https://github.com/starriver030515/HAPO verfügbar.
English
Reinforcement Learning has emerged as the fundamental technique for enhancing
reasoning in LLMs. However, existing algorithms apply uniform optimization to
all tokens, ignoring their different roles in reasoning process. To address
this limitation, we introduce Heterogeneous Adaptive Policy Optimization
(HAPO), a comprehensive token-aware algorithm that dynamically adapts
optimization based on token entropy. For rollout sampling, we propose Adaptive
Temperature Sampling, which adjusts sampling temperature in real time,
promoting exploration at high-entropy tokens while preserving coherence at
low-entropy ones. For advantage calculation, we introduce Token Level Group
Average that normalizes advantages at token level, jointly accounting for
sequence-length as in token-mean loss while preserving non-biased treatment. We
then develop Differential Advantage Redistribution that leverages entropy and
importance ratios to modulate rewards-adjusting updates for tokens with clear
signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing
aggressive probability reduction for noisy low-entropy tokens while enabling
exploration for high-entropy tokens. Through systematic investigation between
entropy and training dynamics, we embedded token-level treatment into every
stages to achieve fine-grained control. Extensive experiments demonstrate that
HAPO consistently outperforms DAPO across multiple model scales. Our code can
be found in https://github.com/starriver030515/HAPO.