ChatPaper.aiChatPaper

自己暗示機能を備えた言語モデルによる強化学習の性能向上

Self-Hinting Language Models Enhance Reinforcement Learning

February 3, 2026
著者: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI

要旨

Group Relative Policy Optimization(GRPO)は、検証可能な目的で大規模言語モデルを整合させる実用的な手法として最近注目されている。しかし、疎な終端報酬の下では、グループ内のロールアウトがしばしば同一の報酬を受け、相対的なアドバンテージが崩壊し更新が消失するため、GRPOは行き詰まることが多い。本論文では、特権的な監督を用いた自己ヒント整合GRPO(SAGE)を提案する。これは、同じ終端検証器報酬の下でロールアウト分布を再形成するために、訓練中に特権的ヒントを注入する方策オン強化学習フレームワークである。各プロンプトxに対して、モデルはコンパクトなヒントh(例:計画や分解)をサンプリングし、その後(x,h)を条件として解τを生成する。決定的に、タスク報酬R(x,τ)は変更されない。ヒントは、有限サンプリング下でのグループ内結果の多様性を高めるだけで、疎な報酬下でのGRPOのアドバンテージ崩壊を防ぐ。テスト時にはh=varnothingと設定し、特権情報なしでヒントなし方策をデプロイする。さらに、多様な自己ヒントをサンプリングすることは、初期方策やより強力な外部モデルからの固定ヒントよりも学習者のボトルネックを効果的に追跡する適応的カリキュラムとして機能する。3つのLLMを用いた6つのベンチマークでの実験により、SAGEがGRPOを一貫して上回ることを示す(平均でLlama-3.2-3B-Instructは+2.0、Qwen2.5-7B-Instructは+1.2、Qwen3-4B-Instructは+1.3)。コードはhttps://github.com/BaohaoLiao/SAGE で公開されている。
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.
PDF191February 6, 2026