Selbsthinweisende Sprachmodelle verbessern bestärkendes Lernen
Self-Hinting Language Models Enhance Reinforcement Learning
February 3, 2026
papers.authors: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI
papers.abstract
Group Relative Policy Optimization (GRPO) hat sich kürzlich als praktische Methode zur Ausrichtung großer Sprachmodelle an überprüfbaren Zielen etabliert. Unter spärlichen terminalen Belohnungen kommt GRPO jedoch oft zum Stillstand, da Rollouts innerhalb einer Gruppe häufig identische Belohnungen erhalten, was dazu führt, dass relative Vorteile zusammenbrechen und Aktualisierungen verschwinden. Wir schlagen self-hint aligned GRPO with privileged supervision (SAGE) vor, ein On-Policy Reinforcement-Learning-Framework, das privilegierte Hinweise während des Trainings einspielt, um die Rollout-Verteilung unter derselben terminalen Verifikator-Belohnung umzugestalten. Für jede Eingabe-Aufforderung x sampelt das Modell einen kompakten Hinweis h (z.B. einen Plan oder eine Zerlegung) und generiert dann eine Lösung τ, bedingt auf (x,h). Entscheidend ist, dass die Aufgabenbelohnung R(x,τ) unverändert bleibt; Hinweise erhöhen nur die Ergebnisvielfalt innerhalb der Gruppe bei endlicher Stichprobenziehung und verhindern so, dass GRPO-Vorteile unter spärlichen Belohnungen kollabieren. Zum Testzeitpunkt setzen wir h=varnothing und setzen die No-Hint-Policy ohne privilegierte Informationen ein. Darüber hinaus dient das Sammeln verschiedener Selbsthinweise als adaptiver Lehrplan, der die Engpässe des Lernenden effektiver verfolgt als feste Hinweise von einer initialen Policy oder einem stärkeren externen Modell. Experimente über 6 Benchmarks mit 3 LLMs zeigen, dass SAGE durchgängig GRPO übertrifft, im Durchschnitt um +2,0 bei Llama-3.2-3B-Instruct, +1,2 bei Qwen2.5-7B-Instruct und +1,3 bei Qwen3-4B-Instruct. Der Code ist verfügbar unter https://github.com/BaohaoLiao/SAGE.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.