RL für das logische Schließen von LLMs überdenken: Es handelt sich um sparsame Policy-Auswahl, nicht um Fähigkeitslernen.

Zusammenfassung

Verstärkungslernen hat sich zum Standard für die Verbesserung des logischen Denkens in großen Sprachmodellen entwickelt, doch mehren sich die Hinweise, dass RL keine neuen Strategien lehrt, sondern die Wahrscheinlichkeitsmasse über Lösungen umverteilt, die das Basismodell bereits enthält. In dieser Arbeit fragen wir: Wenn RL das Modell lediglich auf bereits bekannte Pfade lenkt, ist die RL-Optimierungsschleife dann überhaupt notwendig? Durch Token-Ebene-Analysen über mehrere Modellfamilien und RL-Algorithmen hinweg stellen wir fest, dass der vorteilhafte Einfluss von RL in einer spärlichen, vorhersagbaren Korrektur besteht, die sich auf Entscheidungspunkte mit hoher Entropie konzentriert, an denen das Modell unsicher ist, welchen Zweig es einschlagen soll. Nur 1–3 % der Token-Positionen sind betroffen, das geförderte Token liegt stets unter den Top-5-Alternativen des Basismodells, und gezielte Korrekturen an diesen wenigen Positionen stellen kausal einen großen Teil des RL-Genauigkeitsgewinns wieder her, während zufällige Korrekturen fehlschlagen. Die Entropie des Basismodells selbst identifiziert diese Positionen ohne jedes trainierte RL-Modell, und die gesamte Korrektur ist niedrigdimensional, darstellbar in einem winzigen Bruchteil der Modellparameter. Diese Ergebnisse deuten die Verbesserung des logischen Denkens als spärliche Politikselektion um, nicht als Fähigkeitserwerb. Wir übersetzen diese Erkenntnis in ReasonMaxxer, eine minimale RL-freie Methode, die den kontrastiven Verlust nur an entropiegesteuerten Entscheidungspunkten anwendet, unter Verwendung weniger hundert Basis-Modell-Rollouts und ohne Online-Generierung. Über drei Modellfamilien, sechs Skalen und sechs mathematische Denk-Benchmarks hinweg erreicht oder übertrifft ReasonMaxxer die volle RL-Leistung, benötigt dabei jedoch nur Dutzende von Aufgaben und Minuten Training auf einer einzelnen GPU – eine Reduktion der Trainingskosten um etwa drei Größenordnungen.

English

Reinforcement learning has become the standard for improving reasoning in large language models, yet evidence increasingly suggests that RL does not teach new strategies; it redistributes probability mass over solutions the base model already contains. In this work, we ask: if RL merely steers the model toward paths it already knows, is the RL optimization loop itself necessary? Through token-level analysis across multiple model families and RL algorithms, we find that RL's beneficial footprint is a sparse, predictable correction concentrated at high-entropy decision points where the model is uncertain which branch to take. Only 1--3\% of token positions are affected, the promoted token always lies within the base model's top-5 alternatives, and targeted corrections at those few positions causally recover a large fraction of RL's accuracy gain, while random corrections fail. The base model's own entropy identifies these positions without any RL-trained model, and the entire correction is low-dimensional, representable in a tiny fraction of model parameters. These findings reframe reasoning improvement as sparse policy selection, not capability acquisition. We translate this insight into ReasonMaxxer, a minimal RL-free method that applies contrastive loss only at entropy-gated decision points, using a few hundred base-model rollouts and no online generation. Across three model families, six scales, and six math reasoning benchmarks, ReasonMaxxer matches or exceeds full RL performance while requiring only tens of problems and minutes of single-GPU training, a reduction in training cost of roughly three orders of magnitude.

RL für das logische Schließen von LLMs überdenken: Es handelt sich um sparsame Policy-Auswahl, nicht um Fähigkeitslernen.

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

Zusammenfassung

Support