Repenser l'apprentissage par renforcement pour le raisonnement des LLM : il s'agit d'une sélection de politique parcimonieuse, et non d'un apprentissage de capacités

Résumé

L'apprentissage par renforcement est devenu la référence pour améliorer le raisonnement dans les grands modèles de langage, mais les preuves suggèrent de plus en plus que l'AR n'enseigne pas de nouvelles stratégies ; il redistribue la masse de probabilité sur les solutions que le modèle de base contient déjà. Dans ce travail, nous nous demandons : si l'AR se contente d'orienter le modèle vers des chemins qu'il connaît déjà, la boucle d'optimisation de l'AR est-elle réellement nécessaire ? Grâce à une analyse au niveau des tokens sur plusieurs familles de modèles et algorithmes d'AR, nous constatons que l'empreinte bénéfique de l'AR est une correction clairsemée et prévisible, concentrée sur les points de décision à haute entropie où le modèle hésite entre plusieurs branches. Seulement 1 à 3 % des positions de tokens sont affectées, le token promu se trouve toujours parmi les cinq meilleures alternatives du modèle de base, et des corrections ciblées sur ces quelques positions permettent de récupérer causalement une large part du gain de précision de l'AR, tandis que des corrections aléatoires échouent. L'entropie propre du modèle de base identifie ces positions sans aucun modèle entraîné par AR, et la correction entière est de faible dimension, représentable dans une infime fraction des paramètres du modèle. Ces résultats refondent l'amélioration du raisonnement comme une sélection clairsemée de politiques, et non comme une acquisition de capacités. Nous traduisons cette intuition en ReasonMaxxer, une méthode minimale sans AR qui applique une perte contrastive uniquement aux points de décision filtrés par entropie, en utilisant quelques centaines de déploiements du modèle de base et sans génération en ligne. Sur trois familles de modèles, six échelles et six benchmarks de raisonnement mathématique, ReasonMaxxer égalise ou dépasse les performances complètes de l'AR tout en ne nécessitant que quelques dizaines de problèmes et quelques minutes d'entraînement sur GPU unique, soit une réduction du coût d'entraînement d'environ trois ordres de grandeur.

English

Reinforcement learning has become the standard for improving reasoning in large language models, yet evidence increasingly suggests that RL does not teach new strategies; it redistributes probability mass over solutions the base model already contains. In this work, we ask: if RL merely steers the model toward paths it already knows, is the RL optimization loop itself necessary? Through token-level analysis across multiple model families and RL algorithms, we find that RL's beneficial footprint is a sparse, predictable correction concentrated at high-entropy decision points where the model is uncertain which branch to take. Only 1--3\% of token positions are affected, the promoted token always lies within the base model's top-5 alternatives, and targeted corrections at those few positions causally recover a large fraction of RL's accuracy gain, while random corrections fail. The base model's own entropy identifies these positions without any RL-trained model, and the entire correction is low-dimensional, representable in a tiny fraction of model parameters. These findings reframe reasoning improvement as sparse policy selection, not capability acquisition. We translate this insight into ReasonMaxxer, a minimal RL-free method that applies contrastive loss only at entropy-gated decision points, using a few hundred base-model rollouts and no online generation. Across three model families, six scales, and six math reasoning benchmarks, ReasonMaxxer matches or exceeds full RL performance while requiring only tens of problems and minutes of single-GPU training, a reduction in training cost of roughly three orders of magnitude.

Repenser l'apprentissage par renforcement pour le raisonnement des LLM : il s'agit d'une sélection de politique parcimonieuse, et non d'un apprentissage de capacités

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

Résumé

Support