Empujando los límites del razonamiento en los modelos de lenguaje de gran escala
Nudging the Boundaries of LLM Reasoning
September 30, 2025
Autores: Justin Chih-Yao Chen, Becky Xiangyu Peng, Prafulla Kumar Choubey, Kung-Hsiang Huang, Jiaxin Zhang, Mohit Bansal, Chien-Sheng Wu
cs.AI
Resumen
Los algoritmos actuales de aprendizaje por refuerzo en línea (RL, por sus siglas en inglés), como GRPO, comparten una limitación clave en el razonamiento de modelos de lenguaje grandes (LLM): no pueden aprender de problemas que son "insolubles" para el modelo. En otras palabras, solo pueden mejorar el rendimiento en problemas donde el modelo es capaz de explorar la respuesta correcta. Como consecuencia, el "límite superior" del modelo permanece inalterado después del entrenamiento con RL, aunque la probabilidad de resolver problemas más fáciles y solubles pueda aumentar. Estas muestras difíciles no pueden contribuir al entrenamiento, ya que ninguna ejecución genera recompensas y, por lo tanto, no se producen gradientes. Para desbloquear el aprendizaje a partir de estas muestras difíciles, proponemos NuRL, un método de "empujón" que busca elevar el límite superior del razonamiento de los LLM utilizando pistas autogeneradas, es decir, indicios abstractos que ayudan a reducir la dificultad del problema para el modelo. Dada una pregunta y su respuesta correcta, el modelo genera una cadena de pensamiento (CoT) y luego produce una pista que contiene el conocimiento central necesario para resolver el problema. Durante el entrenamiento, generamos G ejecuciones a partir de la política base y utilizamos la tasa de acierto para decidir si la pista debe inyectarse. Para muestras difíciles con una tasa de acierto del 0%, inyectamos la pista y regeneramos un nuevo lote de trayectorias. Esto ofrece dos beneficios: (1) la pista aumenta las tasas de acierto (del 0% a un valor no nulo), introduciendo así señales de entrenamiento para muestras previamente insolubles, y (2) las pistas son autogeneradas, evitando el cambio distribucional y sin depender de modelos externos. NuRL logra mejoras consistentes en 6 benchmarks y 3 modelos, mientras sigue siendo complementario al escalado en tiempo de prueba. Notablemente, NuRL puede elevar el límite superior del modelo, mientras que GRPO deja el pass@1024 sin cambios respecto al modelo base. Además, presentamos un estudio sistemático sobre qué hace que una pista sea efectiva y cuándo las pistas son más útiles. Curiosamente, las mejores pistas son abstractas y de alto nivel, y son más beneficiosas cuando se aplican de manera necesaria y después de que GRPO ha convergido.
English
Current online reinforcement learning (RL) algorithms like GRPO share a key
limitation in LLM reasoning: they cannot learn from problems that are
"unsolvable" to the model. In other words, they can only improve performance on
problems where the model is capable of exploring the correct answer.
Consequently, the model's "upper limit" remains unchanged after RL training,
even though the likelihood of solving easier, solvable problems may increase.
These hard samples cannot contribute to training, as no rollouts yield rewards
and thus no gradients are produced. To unlock learning from these hard samples,
we propose NuRL, a "nudging" method that aims to push the upper bound of LLM
reasoning using self-generated hints, i.e., abstract cues that help reduce the
problem difficulty for the model. Given a question and its gold answer, the
model generates a CoT and then produces a hint containing the core knowledge
needed to solve the problem. During training, we generate G rollouts from the
base policy and use the pass rate to decide whether the hint should be
injected. For hard samples with a 0% pass rate, we inject the hint and
regenerate a new batch of trajectories. This yields two benefits: (1) the hint
boosts pass rates (from 0% to non-zero), thereby introducing training signals
for previously unsolvable samples, and (2) the hints are self-generated,
avoiding distributional shift and do not rely on external models. NuRL achieves
consistent improvements across 6 benchmarks and 3 models, while remaining
complementary to test-time scaling. Notably, NuRL can raise the model's upper
limit, whereas GRPO leaves pass@1024 unchanged from the base model.
Furthermore, we present a systematic study of what makes an effective hint and
when hints are most useful. Interestingly, the best hints are abstract and
high-level, and are most beneficial when applied necessarily and after GRPO has
converged.