Herziening van RL voor LLM-redenering: Het is schaarse beleidsselectie, niet capaciteitsleren

Samenvatting

Reinforcement learning is de standaard geworden voor het verbeteren van redeneren in grote taalmodellen, maar steeds meer bewijs suggereert dat RL geen nieuwe strategieën aanleert; het herverdeelt alleen de waarschijnlijkheidsmassa over oplossingen die het basismodel al bevat. In dit werk vragen we ons af: als RL het model alleen maar stuurt naar paden die het al kent, is de optimalisatielus van RL dan zelf noodzakelijk? Door middel van token-niveau analyse over meerdere modelfamilies en RL-algoritmen ontdekken we dat de gunstige voetafdruk van RL een schaarse, voorspelbare correctie is, geconcentreerd op beslispunten met hoge entropie waar het model onzeker is welke tak te nemen. Slechts 1–3% van de tokenposities wordt beïnvloed, het gepromote token ligt altijd binnen de top-5 alternatieven van het basismodel, en gerichte correcties op die enkele posities herstellen causaal een groot deel van de nauwkeurigheidswinst van RL, terwijl willekeurige correcties falen. De eigen entropie van het basismodel identificeert deze posities zonder enig getraind RL-model, en de gehele correctie is laag-dimensionaal, representeerbaar in een klein deel van de modelparameters. Deze bevindingen herformuleren redeneerverbetering als schaarse beleidsselectie, niet als capaciteitsverwerving. We vertalen dit inzicht naar ReasonMaxxer, een minimale RL-vrije methode die alleen contrastief verlies toepast op entropie-gestuurde beslispunten, met een paar honderd rollouts van het basismodel en geen online generatie. Over drie modelfamilies, zes schalen en zes wiskundige redeneerbenchmarks presteert ReasonMaxxer even goed of beter dan volledige RL, terwijl het slechts tientallen problemen en minuten aan single-GPU-training vereist, een reductie in trainingskosten van ruwweg drie ordes van grootte.

English

Reinforcement learning has become the standard for improving reasoning in large language models, yet evidence increasingly suggests that RL does not teach new strategies; it redistributes probability mass over solutions the base model already contains. In this work, we ask: if RL merely steers the model toward paths it already knows, is the RL optimization loop itself necessary? Through token-level analysis across multiple model families and RL algorithms, we find that RL's beneficial footprint is a sparse, predictable correction concentrated at high-entropy decision points where the model is uncertain which branch to take. Only 1--3\% of token positions are affected, the promoted token always lies within the base model's top-5 alternatives, and targeted corrections at those few positions causally recover a large fraction of RL's accuracy gain, while random corrections fail. The base model's own entropy identifies these positions without any RL-trained model, and the entire correction is low-dimensional, representable in a tiny fraction of model parameters. These findings reframe reasoning improvement as sparse policy selection, not capability acquisition. We translate this insight into ReasonMaxxer, a minimal RL-free method that applies contrastive loss only at entropy-gated decision points, using a few hundred base-model rollouts and no online generation. Across three model families, six scales, and six math reasoning benchmarks, ReasonMaxxer matches or exceeds full RL performance while requiring only tens of problems and minutes of single-GPU training, a reduction in training cost of roughly three orders of magnitude.