Самоуказывающие языковые модели улучшают обучение с подкреплением
Self-Hinting Language Models Enhance Reinforcement Learning
February 3, 2026
Авторы: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI
Аннотация
Group Relative Policy Optimization (GRPO) недавно стала практическим методом для согласования больших языковых моделей с верифицируемыми целями. Однако при разреженных терминальных вознаграждениях GRPO часто останавливается, поскольку траектории внутри группы часто получают идентичные награды, что приводит к коллапсу относительных преимуществ и исчезновению обновлений. Мы предлагаем метод GRPO с самоподсказками и привилегированным контролем (SAGE) — фреймворк обучения с подкреплением на политике, который внедряет привилегированные подсказки во время обучения для изменения распределения траекторий при том же терминальном верифицируемом вознаграждении. Для каждого промпта x модель семплирует компактную подсказку h (например, план или декомпозицию) и затем генерирует решение τ, обусловленное (x,h). Ключевой момент: целевое вознаграждение R(x,τ) остается неизменным; подсказки лишь увеличивают разнообразие исходов внутри группы при конечной выборке, предотвращая коллапс преимуществ GRPO при разреженных вознаграждениях. На этапе тестирования мы устанавливаем h=∅ и развертываем политику без подсказок, без какого-либо привилегированного доступа. Более того, семплирование разнообразных самоподсказок служит адаптивным учебным планом, который отслеживает узкие места обучаемой модели эффективнее, чем фиксированные подсказки от начальной политики или более сильной внешней модели. Эксперименты на 6 бенчмарках с 3 LLM показывают, что SAGE стабильно превосходит GRPO, в среднем на +2.0 для Llama-3.2-3B-Instruct, на +1.2 для Qwen2.5-7B-Instruct и на +1.3 для Qwen3-4B-Instruct. Код доступен по адресу https://github.com/BaohaoLiao/SAGE.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.