ChatPaper.aiChatPaper

Les modèles de langage auto-suggestifs améliorent l'apprentissage par renforcement

Self-Hinting Language Models Enhance Reinforcement Learning

February 3, 2026
papers.authors: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI

papers.abstract

L'optimisation de politique relative au groupe (GRPO) a récemment émergé comme une méthode pratique pour aligner les grands modèles de langage sur des objectifs vérifiables. Cependant, avec des récompenses terminales éparses, la GRPO stagne souvent car les épisodes au sein d'un groupe reçoivent fréquemment des récompenses identiques, ce qui entraîne un effondrement des avantages relatifs et une annulation des mises à jour. Nous proposons la GRPO alignée par auto-indice avec supervision privilégiée (SAGE), un cadre d'apprentissage par renforcement sur-politique qui injecte des indices privilégiés pendant l'entraînement pour remodeler la distribution des épisodes sous la même récompense terminale du vérificateur. Pour chaque prompt x, le modèle échantillonne un indice compact h (par exemple, un plan ou une décomposition) puis génère une solution τ conditionnée par (x,h). Fait crucial, la récompense de tâche R(x,τ) reste inchangée ; les indices augmentent uniquement la diversité des résultats au sein du groupe sous un échantillonnage fini, empêchant l'effondrement des avantages GRPO sous des récompenses éparses. Au moment du test, nous fixons h=varnothing et déployons la politique sans indice, sans aucune information privilégiée. De plus, l'échantillonnage d'auto-indices diversifiés sert de curriculum adaptatif qui suit les goulots d'étranglement de l'apprenant plus efficacement que des indices fixes provenant d'une politique initiale ou d'un modèle externe plus fort. Les expériences sur 6 benchmarks avec 3 LLM montrent que SAGE surpasse constamment la GRPO, en moyenne de +2,0 sur Llama-3.2-3B-Instruct, +1,2 sur Qwen2.5-7B-Instruct et +1,3 sur Qwen3-4B-Instruct. Le code est disponible à l'adresse https://github.com/BaohaoLiao/SAGE.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.
PDF191February 6, 2026