Modelos de Linguagem com Auto-Dicação Aprimoram o Aprendizado por Reforço
Self-Hinting Language Models Enhance Reinforcement Learning
February 3, 2026
Autores: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI
Resumo
O Group Relative Policy Optimization (GRPO) surgiu recentemente como uma abordagem prática para alinhar grandes modelos de linguagem com objetivos verificáveis. No entanto, sob recompensas terminais esparsas, o GRPO frequentemente estagna, pois as execuções (rollouts) dentro de um grupo recebem frequentemente recompensas idênticas, fazendo com que as vantagens relativas colapsem e as atualizações desapareçam. Propomos o GRPO alinhado com auto-dica e supervisão privilegiada (SAGE), uma estrutura de aprendizagem por reforço *on-policy* que injeta dicas privilegiadas durante o treinamento para remodelar a distribuição de execuções sob a mesma recompensa terminal do verificador. Para cada prompt *x*, o modelo amostra uma dica compacta *h* (por exemplo, um plano ou decomposição) e depois gera uma solução τ condicionada a (*x,h*). Crucialmente, a recompensa da tarefa R(*x*,τ) permanece inalterada; as dicas apenas aumentam a diversidade de resultados dentro do grupo sob amostragem finita, impedindo o colapso das vantagens do GRPO sob recompensas esparsas. No momento do teste, definimos *h*=vazio e implantamos a política sem dica, sem qualquer informação privilegiada. Além disso, amostrar auto-dicas diversas funciona como um currículo adaptativo que acompanha os gargalos do aprendiz de forma mais eficaz do que dicas fixas de uma política inicial ou de um modelo externo mais forte. Experimentos em 6 benchmarks com 3 LLMs mostram que o SAGE supera consistentemente o GRPO, em média +2,0 no Llama-3.2-3B-Instruct, +1,2 no Qwen2.5-7B-Instruct e +1,3 no Qwen3-4B-Instruct. O código está disponível em https://github.com/BaohaoLiao/SAGE.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.