Los Modelos de Lenguaje con Autosugerencia Mejoran el Aprendizaje por Refuerzo
Self-Hinting Language Models Enhance Reinforcement Learning
February 3, 2026
Autores: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI
Resumen
El Group Relative Policy Optimization (GRPO) ha surgido recientemente como una receta práctica para alinear modelos de lenguaje grandes con objetivos verificables. Sin embargo, bajo recompensas terminales dispersas, el GRPO a menudo se estanca porque las simulaciones dentro de un grupo reciben con frecuencia recompensas idénticas, lo que provoca que las ventajas relativas colapsen y las actualizaciones desaparezcan. Proponemos GRPO alineado con auto-pistas y supervisión privilegiada (SAGE), un marco de aprendizaje por refuerzo *on-policy* que inyecta pistas privilegiadas durante el entrenamiento para remodelar la distribución de las simulaciones bajo la misma recompensa terminal del verificador. Para cada instrucción x, el modelo muestrea una pista compacta h (por ejemplo, un plan o descomposición) y luego genera una solución τ condicionada a (x,h). Crucialmente, la recompensa de la tarea R(x,τ) permanece inalterada; las pistas solo aumentan la diversidad de resultados dentro del grupo bajo un muestreo finito, evitando que las ventajas del GRPO colapsen bajo recompensas dispersas. En el momento de la prueba, establecemos h=vacío y desplegamos la política sin pistas, sin ninguna información privilegiada. Además, el muestreo de diversas auto-pistas sirve como un plan de estudios adaptativo que rastrea los cuellos de botella del aprendiz de manera más efectiva que las pistas fijas de una política inicial o de un modelo externo más fuerte. Los experimentos en 6 puntos de referencia con 3 LLM muestran que SAGE supera consistentemente a GRPO, en promedio +2.0 en Llama-3.2-3B-Instruct, +1.2 en Qwen2.5-7B-Instruct y +1.3 en Qwen3-4B-Instruct. El código está disponible en https://github.com/BaohaoLiao/SAGE.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.