De grenzen van LLM-redenering verleggen

Samenvatting

Huidige online reinforcement learning (RL) algoritmen zoals GRPO delen een belangrijke beperking in LLM-redenering: ze kunnen niet leren van problemen die "onoplosbaar" zijn voor het model. Met andere woorden, ze kunnen alleen de prestaties verbeteren op problemen waarbij het model in staat is het juiste antwoord te verkennen. Hierdoor blijft de "bovengrens" van het model onveranderd na RL-training, ook al kan de kans op het oplossen van eenvoudigere, oplosbare problemen toenemen. Deze moeilijke voorbeelden kunnen niet bijdragen aan de training, omdat geen enkele rollout beloningen oplevert en er dus geen gradients worden gegenereerd. Om leren van deze moeilijke voorbeelden mogelijk te maken, stellen we NuRL voor, een "nudging"-methode die ernaar streeft de bovengrens van LLM-redenering te verleggen met behulp van zelf gegenereerde hints, d.w.z. abstracte aanwijzingen die helpen de probleem moeilijkheid voor het model te verminderen. Gegeven een vraag en het juiste antwoord, genereert het model een CoT (Chain of Thought) en produceert vervolgens een hint die de kernkennis bevat die nodig is om het probleem op te lossen. Tijdens de training genereren we G rollouts vanuit het basisbeleid en gebruiken we het slagingspercentage om te beslissen of de hint moet worden geïnjecteerd. Voor moeilijke voorbeelden met een slagingspercentage van 0% injecteren we de hint en genereren we een nieuwe batch trajecten. Dit levert twee voordelen op: (1) de hint verhoogt de slagingspercentages (van 0% naar niet-nul), waardoor trainingssignalen worden geïntroduceerd voor voorheen onoplosbare voorbeelden, en (2) de hints zijn zelf gegenereerd, waardoor distributieverschuiving wordt vermeden en er geen afhankelijkheid is van externe modellen. NuRL behaalt consistente verbeteringen over 6 benchmarks en 3 modellen, terwijl het complementair blijft aan test-time scaling. Opmerkelijk is dat NuRL de bovengrens van het model kan verhogen, terwijl GRPO pass@1024 onveranderd laat ten opzichte van het basismodel. Bovendien presenteren we een systematische studie van wat een effectieve hint maakt en wanneer hints het meest nuttig zijn. Interessant is dat de beste hints abstract en hoog over zijn, en het meest nuttig zijn wanneer ze noodzakelijk worden toegepast en nadat GRPO is geconvergeerd.

English

Current online reinforcement learning (RL) algorithms like GRPO share a key limitation in LLM reasoning: they cannot learn from problems that are "unsolvable" to the model. In other words, they can only improve performance on problems where the model is capable of exploring the correct answer. Consequently, the model's "upper limit" remains unchanged after RL training, even though the likelihood of solving easier, solvable problems may increase. These hard samples cannot contribute to training, as no rollouts yield rewards and thus no gradients are produced. To unlock learning from these hard samples, we propose NuRL, a "nudging" method that aims to push the upper bound of LLM reasoning using self-generated hints, i.e., abstract cues that help reduce the problem difficulty for the model. Given a question and its gold answer, the model generates a CoT and then produces a hint containing the core knowledge needed to solve the problem. During training, we generate G rollouts from the base policy and use the pass rate to decide whether the hint should be injected. For hard samples with a 0% pass rate, we inject the hint and regenerate a new batch of trajectories. This yields two benefits: (1) the hint boosts pass rates (from 0% to non-zero), thereby introducing training signals for previously unsolvable samples, and (2) the hints are self-generated, avoiding distributional shift and do not rely on external models. NuRL achieves consistent improvements across 6 benchmarks and 3 models, while remaining complementary to test-time scaling. Notably, NuRL can raise the model's upper limit, whereas GRPO leaves pass@1024 unchanged from the base model. Furthermore, we present a systematic study of what makes an effective hint and when hints are most useful. Interestingly, the best hints are abstract and high-level, and are most beneficial when applied necessarily and after GRPO has converged.

De grenzen van LLM-redenering verleggen

Nudging the Boundaries of LLM Reasoning

Samenvatting

Support