Expandindo os Limites do Raciocínio em Modelos de Linguagem de Grande Escala
Nudging the Boundaries of LLM Reasoning
September 30, 2025
Autores: Justin Chih-Yao Chen, Becky Xiangyu Peng, Prafulla Kumar Choubey, Kung-Hsiang Huang, Jiaxin Zhang, Mohit Bansal, Chien-Sheng Wu
cs.AI
Resumo
Os algoritmos atuais de aprendizado por reforço online (RL), como o GRPO, compartilham uma limitação fundamental no raciocínio de LLMs: eles não conseguem aprender com problemas que são "insolúveis" para o modelo. Em outras palavras, eles só podem melhorar o desempenho em problemas onde o modelo é capaz de explorar a resposta correta. Consequentemente, o "limite superior" do modelo permanece inalterado após o treinamento de RL, mesmo que a probabilidade de resolver problemas mais fáceis e solúveis possa aumentar. Esses exemplos difíceis não contribuem para o treinamento, pois nenhum rollout gera recompensas e, portanto, nenhum gradiente é produzido. Para desbloquear o aprendizado a partir desses exemplos difíceis, propomos o NuRL, um método de "empurrão" que visa elevar o limite superior do raciocínio de LLMs usando dicas auto-geradas, ou seja, pistas abstratas que ajudam a reduzir a dificuldade do problema para o modelo. Dada uma pergunta e sua resposta correta, o modelo gera um CoT (Chain of Thought) e, em seguida, produz uma dica contendo o conhecimento central necessário para resolver o problema. Durante o treinamento, geramos G rollouts a partir da política base e usamos a taxa de acerto para decidir se a dica deve ser injetada. Para exemplos difíceis com taxa de acerto de 0%, injetamos a dica e regeneramos um novo lote de trajetórias. Isso traz dois benefícios: (1) a dica aumenta as taxas de acerto (de 0% para um valor não nulo), introduzindo assim sinais de treinamento para exemplos anteriormente insolúveis, e (2) as dicas são auto-geradas, evitando deslocamento de distribuição e não dependendo de modelos externos. O NuRL alcança melhorias consistentes em 6 benchmarks e 3 modelos, enquanto permanece complementar ao escalonamento em tempo de teste. Notavelmente, o NuRL pode elevar o limite superior do modelo, enquanto o GRPO mantém o pass@1024 inalterado em relação ao modelo base. Além disso, apresentamos um estudo sistemático sobre o que torna uma dica eficaz e quando as dicas são mais úteis. Curiosamente, as melhores dicas são abstratas e de alto nível, e são mais benéficas quando aplicadas necessariamente e após o GRPO ter convergido.
English
Current online reinforcement learning (RL) algorithms like GRPO share a key
limitation in LLM reasoning: they cannot learn from problems that are
"unsolvable" to the model. In other words, they can only improve performance on
problems where the model is capable of exploring the correct answer.
Consequently, the model's "upper limit" remains unchanged after RL training,
even though the likelihood of solving easier, solvable problems may increase.
These hard samples cannot contribute to training, as no rollouts yield rewards
and thus no gradients are produced. To unlock learning from these hard samples,
we propose NuRL, a "nudging" method that aims to push the upper bound of LLM
reasoning using self-generated hints, i.e., abstract cues that help reduce the
problem difficulty for the model. Given a question and its gold answer, the
model generates a CoT and then produces a hint containing the core knowledge
needed to solve the problem. During training, we generate G rollouts from the
base policy and use the pass rate to decide whether the hint should be
injected. For hard samples with a 0% pass rate, we inject the hint and
regenerate a new batch of trajectories. This yields two benefits: (1) the hint
boosts pass rates (from 0% to non-zero), thereby introducing training signals
for previously unsolvable samples, and (2) the hints are self-generated,
avoiding distributional shift and do not rely on external models. NuRL achieves
consistent improvements across 6 benchmarks and 3 models, while remaining
complementary to test-time scaling. Notably, NuRL can raise the model's upper
limit, whereas GRPO leaves pass@1024 unchanged from the base model.
Furthermore, we present a systematic study of what makes an effective hint and
when hints are most useful. Interestingly, the best hints are abstract and
high-level, and are most beneficial when applied necessarily and after GRPO has
converged.