Zelf-aanduidende Taalmodellen Verbeteren Versterkend Leren
Self-Hinting Language Models Enhance Reinforcement Learning
February 3, 2026
Auteurs: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI
Samenvatting
Group Relative Policy Optimization (GRPO) is recentelijk naar voren gekomen als een praktische methode voor het afstemmen van grote taalmodellen op verifieerbare doelstellingen. Onder schaarse terminale beloningen stagneert GRPO echter vaak, omdat rollouts binnen een groep veelal identieke beloningen ontvangen, wat leidt tot het ineenstorten van relatieve voordelen en het verdwijnen van updates. Wij stellen zelf-hint afgestemd GRPO met geprivilegieerde supervisie (SAGE) voor, een on-policy reinforcement learning raamwerk dat geprivilegieerde hints injecteert tijdens de training om de rollout-verdeling te hervormen onder dezelfde terminale verifieerderbeloning. Voor elke prompt x bemonstert het model een compacte hint h (bijvoorbeeld een plan of decompositie) en genereert vervolgens een oplossing τ conditioneel op (x,h). Cruciaal is dat de taakbeloning R(x,τ) onveranderd blijft; hints vergroten alleen de uitkomstdiversiteit binnen de groep bij eindige bemonstering, waardoor wordt voorkomen dat GRPO-voordelen ineenstorten onder schaarse beloningen. Tijdens de testfase stellen we h=varnothing in en zetten we het no-hint-beleid in zonder enige geprivilegieerde informatie. Bovendien fungeert het bemonsteren van diverse zelf-hints als een adaptief curriculum dat de knelpunten van de leerling effectiever volgt dan vaste hints van een initieel beleid of een sterker extern model. Experimenten over 6 benchmarks met 3 LLM's tonen aan dat SAGE consistent beter presteert dan GRPO, gemiddeld +2.0 op Llama-3.2-3B-Instruct, +1.2 op Qwen2.5-7B-Instruct en +1.3 op Qwen3-4B-Instruct. De code is beschikbaar op https://github.com/BaohaoLiao/SAGE.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.