Jenseits der 80/20-Regel: Hoch-entropische Minderheitstokens treiben effektives Reinforcement Learning für das Reasoning von LLMs voranBeyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als ein leistungsstarker Ansatz erwiesen, um die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung zu verbessern, obwohl die zugrunde liegenden Mechanismen noch nicht vollständig verstanden sind. In dieser Arbeit unternehmen wir eine wegweisende Untersuchung von RLVR aus der neuartigen Perspektive von Token-Entropiemustern und analysieren umfassend, wie verschiedene Token die Leistung bei der logischen Schlussfolgerung beeinflussen. Durch die Untersuchung von Token-Entropiemustern im Chain-of-Thought (CoT)-Schlussfolgerungsprozess stellen wir fest, dass nur ein kleiner Teil der Token eine hohe Entropie aufweist und dass diese Token als kritische Weichen fungieren, die das Modell auf verschiedene Schlussfolgerungspfade lenken. Darüber hinaus zeigt die Untersuchung der Entwicklung von Entropiemustern während des RLVR-Trainings, dass RLVR weitgehend den Entropiemustern des Basismodells folgt und hauptsächlich die Entropie der hoch entropischen Token anpasst. Diese Erkenntnisse unterstreichen die Bedeutung von hoch entropischen Token (d.h. Weichen-Token) für RLVR. Wir verbessern RLVR schließlich, indem wir die Policy-Gradient-Updates auf Weichen-Token beschränken, und entdecken eine Erkenntnis, die sogar über die 80/20-Regel hinausgeht: Die Verwendung von nur 20 % der Token führt zu einer Leistung, die vergleichbar ist mit vollständigen Gradienten-Updates beim Qwen3-8B-Basismodell und die vollständige Gradienten-Updates beim Qwen3-32B (+11,04 auf AIME'25 und +7,71 auf AIME'24) und Qwen3-14B (+4,79 auf AIME'25 und +5,21 auf AIME'24) Basismodellen deutlich übertrifft, was einen starken Skalierungstrend aufzeigt. Im Gegensatz dazu führt das Training ausschließlich mit den 80 % der Token mit der niedrigsten Entropie zu einem deutlichen Leistungsabfall. Diese Ergebnisse deuten darauf hin, dass die Wirksamkeit von RLVR hauptsächlich aus der Optimierung der hoch entropischen Token resultiert, die die Richtung der Schlussfolgerung bestimmen. Insgesamt unterstreichen unsere Ergebnisse das Potenzial, RLVR durch eine Token-Entropie-Perspektive zu verstehen und RLVR durch die Nutzung hoch entropischer Minderheits-Token weiter zu optimieren, um die logische Schlussfolgerung von LLMs weiter zu verbessern.