Replanteando el RL para el razonamiento en LLM: es selección de políticas dispersas, no aprendizaje de capacidades

Resumen

El aprendizaje por refuerzo se ha convertido en el estándar para mejorar el razonamiento en los modelos de lenguaje a gran escala, pero la evidencia sugiere cada vez más que este método no enseña nuevas estrategias, sino que redistribuye la masa de probabilidad sobre soluciones que el modelo base ya contiene. En este trabajo, nos preguntamos: si el aprendizaje por refuerzo solo redirige el modelo hacia caminos que ya conoce, ¿es realmente necesario el bucle de optimización del aprendizaje por refuerzo? Mediante un análisis a nivel de tokens en múltiples familias de modelos y algoritmos de aprendizaje por refuerzo, encontramos que la huella beneficiosa de este método es una corrección escasa y predecible, concentrada en puntos de decisión de alta entropía donde el modelo no está seguro de qué rama tomar. Solo entre el 1% y el 3% de las posiciones de tokens se ven afectadas, el token promovido siempre se encuentra entre las cinco alternativas principales del modelo base, y las correcciones dirigidas en esas pocas posiciones recuperan causalmente una gran parte de la mejora en precisión del aprendizaje por refuerzo, mientras que las correcciones aleatorias fallan. La entropía propia del modelo base identifica estas posiciones sin necesidad de ningún modelo entrenado con aprendizaje por refuerzo, y toda la corrección es de baja dimensionalidad, representable en una fracción mínima de los parámetros del modelo. Estos hallazgos replantean la mejora del razonamiento como una selección de políticas dispersas, no como una adquisición de capacidades. Traducimos esta idea en ReasonMaxxer, un método minimalista sin aprendizaje por refuerzo que aplica una pérdida contrastiva solo en puntos de decisión filtrados por entropía, utilizando unas pocas ejecuciones del modelo base y sin generación en línea. A través de tres familias de modelos, seis escalas y seis benchmarks de razonamiento matemático, ReasonMaxxer iguala o supera el rendimiento del aprendizaje por refuerzo completo, mientras requiere solo decenas de problemas y minutos de entrenamiento en una sola GPU, lo que representa una reducción en el costo de entrenamiento de aproximadamente tres órdenes de magnitud.

English

Reinforcement learning has become the standard for improving reasoning in large language models, yet evidence increasingly suggests that RL does not teach new strategies; it redistributes probability mass over solutions the base model already contains. In this work, we ask: if RL merely steers the model toward paths it already knows, is the RL optimization loop itself necessary? Through token-level analysis across multiple model families and RL algorithms, we find that RL's beneficial footprint is a sparse, predictable correction concentrated at high-entropy decision points where the model is uncertain which branch to take. Only 1--3\% of token positions are affected, the promoted token always lies within the base model's top-5 alternatives, and targeted corrections at those few positions causally recover a large fraction of RL's accuracy gain, while random corrections fail. The base model's own entropy identifies these positions without any RL-trained model, and the entire correction is low-dimensional, representable in a tiny fraction of model parameters. These findings reframe reasoning improvement as sparse policy selection, not capability acquisition. We translate this insight into ReasonMaxxer, a minimal RL-free method that applies contrastive loss only at entropy-gated decision points, using a few hundred base-model rollouts and no online generation. Across three model families, six scales, and six math reasoning benchmarks, ReasonMaxxer matches or exceeds full RL performance while requiring only tens of problems and minutes of single-GPU training, a reduction in training cost of roughly three orders of magnitude.

Replanteando el RL para el razonamiento en LLM: es selección de políticas dispersas, no aprendizaje de capacidades

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

Resumen

Support