I modelli linguistici con auto-suggerimento potenziano l'apprendimento per rinforzo
Self-Hinting Language Models Enhance Reinforcement Learning
February 3, 2026
Autori: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI
Abstract
Il Group Relative Policy Optimization (GRPO) è emerso recentemente come una ricetta pratica per allineare i grandi modelli linguistici a obiettivi verificabili. Tuttavia, in presenza di ricompense terminali sparse, il GRPO spesso si blocca perché i rollout all'interno di un gruppo ricevono frequentemente ricompense identiche, causando il collasso dei vantaggi relativi e l'annullamento degli aggiornamenti. Proponiamo il GRPO allineato con auto-suggerimento e supervisione privilegiata (SAGE), un framework di apprendimento per rinforzo on-policy che inietta suggerimenti privilegiati durante l'addestramento per rimodellare la distribuzione dei rollout sotto la stessa ricompensa terminale del verificatore. Per ogni prompt x, il modello campiona un suggerimento compatto h (ad esempio, un piano o una scomposizione) e genera quindi una soluzione τ condizionata a (x,h). Crucialmente, la ricompensa del task R(x,τ) rimane invariata; i suggerimenti servono solo ad aumentare la diversità degli esiti all'interno del gruppo in condizioni di campionamento finito, prevenendo il collasso dei vantaggi del GRPO sotto ricompense sparse. Al momento del test, impostiamo h=varnothing e utilizziamo la policy senza suggerimenti, senza alcuna informazione privilegiata. Inoltre, il campionamento di auto-suggerimenti diversificati funge da curriculum adattivo che traccia i colli di bottiglia dell'apprendimento in modo più efficace rispetto a suggerimenti fissi provenienti da una policy iniziale o da un modello esterno più forte. Esperimenti su 6 benchmark con 3 LLM mostrano che SAGE supera costantemente il GRPO, in media di +2.0 su Llama-3.2-3B-Instruct, +1.2 su Qwen2.5-7B-Instruct e +1.3 su Qwen3-4B-Instruct. Il codice è disponibile all'indirizzo https://github.com/BaohaoLiao/SAGE.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.