ChatPaper.aiChatPaper

자기-힌트 언어 모델을 활용한 강화 학습 성능 향상

Self-Hinting Language Models Enhance Reinforcement Learning

February 3, 2026
저자: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian
cs.AI

초록

Group Relative Policy Optimization(GRPO)은 검증 가능한 목표에 대형 언어 모델을 정렬시키기 위한 실용적인 방법론으로 최근 주목받고 있습니다. 그러나 희소한 종단 보상 상황에서 GRPO는 그룹 내 롤아웃이 동일한 보상을 받는 경우가 빈번하여 상대적 이점이 무의미해지고 업데이트가 사라지는 문제로 인해 종종 정체됩니다. 본 연구에서는 훈련 중 특권 정보인 힌트를 주입하여 동일한 종단 검증기 보상 하에서 롤아웃 분포를 재구성하는 온-폴리시 강화 학습 프레임워크인 자기 힌트 정렬 GRPO(Privileged Supervision)를 제안합니다. 각 프롬프트 x에 대해 모델은 간결한 힌트 h(예: 계획 또는 분해)를 샘플링한 후 (x,h) 조건 하에서 해결책 τ를 생성합니다. 핵심적으로 과제 보상 R(x,τ)은 변경되지 않으며, 힌트는 유한 샘플링 하에서 그룹 내 결과 다양성만을 증가시켜 희소 보상 조건에서 GRPO의 이점이 무너지는 것을 방지합니다. 테스트 시점에는 h=varnothing으로 설정하여 특권 정보 없이 무힌트 정책을 배포합니다. 더 나아가 다양한 자기 힌트를 샘플링하는 것은 초기 정책이나 더 강력한 외부 모델의 고정된 힌트보다 학습자의 병목 현상을 더 효과적으로 추적하는 적응형 커리큘럼 역할을 합니다. 3가지 LLM을 활용한 6개 벤치마크 실험 결과, SAGE는 GRPO를 지속적으로 능가하며 Llama-3.2-3B-Instruct 기준 평균 +2.0, Qwen2.5-7B-Instruct 기준 +1.2, Qwen3-4B-Instruct 기준 +1.3의 성능 향상을 보였습니다. 코드는 https://github.com/BaohaoLiao/SAGE에서 확인할 수 있습니다.
English
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt x, the model samples a compact hint h (e.g., a plan or decomposition) and then generates a solution τ conditioned on (x,h). Crucially, the task reward R(x,τ) is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set h=varnothing and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.
PDF191February 6, 2026