Spingere i confini del ragionamento nei modelli linguistici di grandi dimensioni

Abstract

Gli attuali algoritmi di apprendimento per rinforzo online (RL) come GRPO condividono una limitazione chiave nel ragionamento dei modelli linguistici di grandi dimensioni (LLM): non possono apprendere da problemi che sono "irrisolvibili" per il modello. In altre parole, possono solo migliorare le prestazioni su problemi in cui il modello è in grado di esplorare la risposta corretta. Di conseguenza, il "limite superiore" del modello rimane invariato dopo l'addestramento RL, anche se la probabilità di risolvere problemi più semplici e risolvibili può aumentare. Questi campioni difficili non possono contribuire all'addestramento, poiché nessun rollout produce ricompense e quindi non vengono generati gradienti. Per sbloccare l'apprendimento da questi campioni difficili, proponiamo NuRL, un metodo di "spinta" che mira a spingere il limite superiore del ragionamento degli LLM utilizzando suggerimenti auto-generati, ovvero indizi astratti che aiutano a ridurre la difficoltà del problema per il modello. Data una domanda e la sua risposta corretta, il modello genera una catena di pensiero (CoT) e poi produce un suggerimento contenente la conoscenza fondamentale necessaria per risolvere il problema. Durante l'addestramento, generiamo G rollout dalla politica di base e utilizziamo il tasso di successo per decidere se il suggerimento debba essere iniettato. Per i campioni difficili con un tasso di successo dello 0%, iniettiamo il suggerimento e rigeneriamo un nuovo batch di traiettorie. Ciò produce due vantaggi: (1) il suggerimento aumenta i tassi di successo (da 0% a un valore diverso da zero), introducendo così segnali di addestramento per campioni precedentemente irrisolvibili, e (2) i suggerimenti sono auto-generati, evitando uno spostamento distributivo e non dipendono da modelli esterni. NuRL ottiene miglioramenti consistenti su 6 benchmark e 3 modelli, rimanendo complementare al ridimensionamento al momento del test. In particolare, NuRL può aumentare il limite superiore del modello, mentre GRPO lascia invariato il pass@1024 rispetto al modello di base. Inoltre, presentiamo uno studio sistematico su ciò che rende un suggerimento efficace e quando i suggerimenti sono più utili. Interessante notare che i suggerimenti migliori sono astratti e di alto livello, e sono più vantaggiosi quando applicati necessariamente e dopo che GRPO ha raggiunto la convergenza.

English

Current online reinforcement learning (RL) algorithms like GRPO share a key limitation in LLM reasoning: they cannot learn from problems that are "unsolvable" to the model. In other words, they can only improve performance on problems where the model is capable of exploring the correct answer. Consequently, the model's "upper limit" remains unchanged after RL training, even though the likelihood of solving easier, solvable problems may increase. These hard samples cannot contribute to training, as no rollouts yield rewards and thus no gradients are produced. To unlock learning from these hard samples, we propose NuRL, a "nudging" method that aims to push the upper bound of LLM reasoning using self-generated hints, i.e., abstract cues that help reduce the problem difficulty for the model. Given a question and its gold answer, the model generates a CoT and then produces a hint containing the core knowledge needed to solve the problem. During training, we generate G rollouts from the base policy and use the pass rate to decide whether the hint should be injected. For hard samples with a 0% pass rate, we inject the hint and regenerate a new batch of trajectories. This yields two benefits: (1) the hint boosts pass rates (from 0% to non-zero), thereby introducing training signals for previously unsolvable samples, and (2) the hints are self-generated, avoiding distributional shift and do not rely on external models. NuRL achieves consistent improvements across 6 benchmarks and 3 models, while remaining complementary to test-time scaling. Notably, NuRL can raise the model's upper limit, whereas GRPO leaves pass@1024 unchanged from the base model. Furthermore, we present a systematic study of what makes an effective hint and when hints are most useful. Interestingly, the best hints are abstract and high-level, and are most beneficial when applied necessarily and after GRPO has converged.

Spingere i confini del ragionamento nei modelli linguistici di grandi dimensioni

Nudging the Boundaries of LLM Reasoning

Abstract

Support