De grenzen van LLM-redenering verleggen
Nudging the Boundaries of LLM Reasoning
September 30, 2025
Auteurs: Justin Chih-Yao Chen, Becky Xiangyu Peng, Prafulla Kumar Choubey, Kung-Hsiang Huang, Jiaxin Zhang, Mohit Bansal, Chien-Sheng Wu
cs.AI
Samenvatting
Huidige online reinforcement learning (RL) algoritmen zoals GRPO delen een belangrijke beperking in LLM-redenering: ze kunnen niet leren van problemen die "onoplosbaar" zijn voor het model. Met andere woorden, ze kunnen alleen de prestaties verbeteren op problemen waarbij het model in staat is het juiste antwoord te verkennen. Hierdoor blijft de "bovengrens" van het model onveranderd na RL-training, ook al kan de kans op het oplossen van eenvoudigere, oplosbare problemen toenemen. Deze moeilijke voorbeelden kunnen niet bijdragen aan de training, omdat geen enkele rollout beloningen oplevert en er dus geen gradients worden gegenereerd. Om leren van deze moeilijke voorbeelden mogelijk te maken, stellen we NuRL voor, een "nudging"-methode die ernaar streeft de bovengrens van LLM-redenering te verleggen met behulp van zelf gegenereerde hints, d.w.z. abstracte aanwijzingen die helpen de probleem moeilijkheid voor het model te verminderen. Gegeven een vraag en het juiste antwoord, genereert het model een CoT (Chain of Thought) en produceert vervolgens een hint die de kernkennis bevat die nodig is om het probleem op te lossen. Tijdens de training genereren we G rollouts vanuit het basisbeleid en gebruiken we het slagingspercentage om te beslissen of de hint moet worden geïnjecteerd. Voor moeilijke voorbeelden met een slagingspercentage van 0% injecteren we de hint en genereren we een nieuwe batch trajecten. Dit levert twee voordelen op: (1) de hint verhoogt de slagingspercentages (van 0% naar niet-nul), waardoor trainingssignalen worden geïntroduceerd voor voorheen onoplosbare voorbeelden, en (2) de hints zijn zelf gegenereerd, waardoor distributieverschuiving wordt vermeden en er geen afhankelijkheid is van externe modellen. NuRL behaalt consistente verbeteringen over 6 benchmarks en 3 modellen, terwijl het complementair blijft aan test-time scaling. Opmerkelijk is dat NuRL de bovengrens van het model kan verhogen, terwijl GRPO pass@1024 onveranderd laat ten opzichte van het basismodel. Bovendien presenteren we een systematische studie van wat een effectieve hint maakt en wanneer hints het meest nuttig zijn. Interessant is dat de beste hints abstract en hoog over zijn, en het meest nuttig zijn wanneer ze noodzakelijk worden toegepast en nadat GRPO is geconvergeerd.
English
Current online reinforcement learning (RL) algorithms like GRPO share a key
limitation in LLM reasoning: they cannot learn from problems that are
"unsolvable" to the model. In other words, they can only improve performance on
problems where the model is capable of exploring the correct answer.
Consequently, the model's "upper limit" remains unchanged after RL training,
even though the likelihood of solving easier, solvable problems may increase.
These hard samples cannot contribute to training, as no rollouts yield rewards
and thus no gradients are produced. To unlock learning from these hard samples,
we propose NuRL, a "nudging" method that aims to push the upper bound of LLM
reasoning using self-generated hints, i.e., abstract cues that help reduce the
problem difficulty for the model. Given a question and its gold answer, the
model generates a CoT and then produces a hint containing the core knowledge
needed to solve the problem. During training, we generate G rollouts from the
base policy and use the pass rate to decide whether the hint should be
injected. For hard samples with a 0% pass rate, we inject the hint and
regenerate a new batch of trajectories. This yields two benefits: (1) the hint
boosts pass rates (from 0% to non-zero), thereby introducing training signals
for previously unsolvable samples, and (2) the hints are self-generated,
avoiding distributional shift and do not rely on external models. NuRL achieves
consistent improvements across 6 benchmarks and 3 models, while remaining
complementary to test-time scaling. Notably, NuRL can raise the model's upper
limit, whereas GRPO leaves pass@1024 unchanged from the base model.
Furthermore, we present a systematic study of what makes an effective hint and
when hints are most useful. Interestingly, the best hints are abstract and
high-level, and are most beneficial when applied necessarily and after GRPO has
converged.