Empujando los límites del razonamiento en los modelos de lenguaje de gran escala

Resumen

Los algoritmos actuales de aprendizaje por refuerzo en línea (RL, por sus siglas en inglés), como GRPO, comparten una limitación clave en el razonamiento de modelos de lenguaje grandes (LLM): no pueden aprender de problemas que son "insolubles" para el modelo. En otras palabras, solo pueden mejorar el rendimiento en problemas donde el modelo es capaz de explorar la respuesta correcta. Como consecuencia, el "límite superior" del modelo permanece inalterado después del entrenamiento con RL, aunque la probabilidad de resolver problemas más fáciles y solubles pueda aumentar. Estas muestras difíciles no pueden contribuir al entrenamiento, ya que ninguna ejecución genera recompensas y, por lo tanto, no se producen gradientes. Para desbloquear el aprendizaje a partir de estas muestras difíciles, proponemos NuRL, un método de "empujón" que busca elevar el límite superior del razonamiento de los LLM utilizando pistas autogeneradas, es decir, indicios abstractos que ayudan a reducir la dificultad del problema para el modelo. Dada una pregunta y su respuesta correcta, el modelo genera una cadena de pensamiento (CoT) y luego produce una pista que contiene el conocimiento central necesario para resolver el problema. Durante el entrenamiento, generamos G ejecuciones a partir de la política base y utilizamos la tasa de acierto para decidir si la pista debe inyectarse. Para muestras difíciles con una tasa de acierto del 0%, inyectamos la pista y regeneramos un nuevo lote de trayectorias. Esto ofrece dos beneficios: (1) la pista aumenta las tasas de acierto (del 0% a un valor no nulo), introduciendo así señales de entrenamiento para muestras previamente insolubles, y (2) las pistas son autogeneradas, evitando el cambio distribucional y sin depender de modelos externos. NuRL logra mejoras consistentes en 6 benchmarks y 3 modelos, mientras sigue siendo complementario al escalado en tiempo de prueba. Notablemente, NuRL puede elevar el límite superior del modelo, mientras que GRPO deja el pass@1024 sin cambios respecto al modelo base. Además, presentamos un estudio sistemático sobre qué hace que una pista sea efectiva y cuándo las pistas son más útiles. Curiosamente, las mejores pistas son abstractas y de alto nivel, y son más beneficiosas cuando se aplican de manera necesaria y después de que GRPO ha convergido.

English

Current online reinforcement learning (RL) algorithms like GRPO share a key limitation in LLM reasoning: they cannot learn from problems that are "unsolvable" to the model. In other words, they can only improve performance on problems where the model is capable of exploring the correct answer. Consequently, the model's "upper limit" remains unchanged after RL training, even though the likelihood of solving easier, solvable problems may increase. These hard samples cannot contribute to training, as no rollouts yield rewards and thus no gradients are produced. To unlock learning from these hard samples, we propose NuRL, a "nudging" method that aims to push the upper bound of LLM reasoning using self-generated hints, i.e., abstract cues that help reduce the problem difficulty for the model. Given a question and its gold answer, the model generates a CoT and then produces a hint containing the core knowledge needed to solve the problem. During training, we generate G rollouts from the base policy and use the pass rate to decide whether the hint should be injected. For hard samples with a 0% pass rate, we inject the hint and regenerate a new batch of trajectories. This yields two benefits: (1) the hint boosts pass rates (from 0% to non-zero), thereby introducing training signals for previously unsolvable samples, and (2) the hints are self-generated, avoiding distributional shift and do not rely on external models. NuRL achieves consistent improvements across 6 benchmarks and 3 models, while remaining complementary to test-time scaling. Notably, NuRL can raise the model's upper limit, whereas GRPO leaves pass@1024 unchanged from the base model. Furthermore, we present a systematic study of what makes an effective hint and when hints are most useful. Interestingly, the best hints are abstract and high-level, and are most beneficial when applied necessarily and after GRPO has converged.

Empujando los límites del razonamiento en los modelos de lenguaje de gran escala

Nudging the Boundaries of LLM Reasoning

Resumen

Support