ChatPaper.aiChatPaper

강화 학습을 위한 힌트 학습

Learning to Hint for Reinforcement Learning

April 1, 2026
저자: Yu Xia, Canwen Xu, Zhewei Yao, Julian McAuley, Yuxiong He
cs.AI

초록

Group Relative Policy Optimization(GRPO)는 검증 가능한 보상을 사용하는 강화 학습에 널리 활용되지만, 이 방법은 종종 이점 붕괴(advantage collapse) 문제에 직면합니다: 그룹 내 모든 롤아웃이 동일한 보상을 받을 경우, 해당 그룹의 상대적 이점(relative advantage)이 0이 되어 학습 신호를 제공하지 못하기 때문입니다. 예를 들어, 추론기(reasoner)에게 문제가 너무 어려운 경우, 모든 샘플링된 롤아웃이 틀려서 0의 보상을 받을 수 있습니다. 최근 연구는 이러한 어려운 문제에 힌트나 보조 구조(auxiliary scaffold)를 추가하여 추론기가 다양한 결과를 내고 0이 아닌 업데이트를 회복하도록 해결책을 제시합니다. 그러나 기존 힌트는 일반적으로 고정되어 있으며 현재 추론기에 맞게 조정되지 않습니다. 또한 힌트가 주어진 입력 아래에서 학습 신호를 생성하더라도, 테스트 시 사용되는 무힌트(no-hint) 정책을 반드시 개선하는 것은 아닙니다. 이를 위해 우리는 강화 학습 중 힌트 정책(hinter policy)과 추론기 정책(reasoner policy)을 함께 학습하는 Hint Learning for Reinforcement Learning(HiLL) 프레임워크를 제안합니다. 각 어려운 문제에 대해 힌터(hinter)는 현재 추론기의 잘못된 롤아웃을 조건으로 하여 온라인으로 힌트를 생성함으로써, 힌트 생성이 추론기의 변화하는 오류에 적응할 수 있도록 합니다. 우리는 또한 힌트 의존성(hint reliance)을 추가로 제안하는데, 이는 힌트가 주어진 정답 궤적이 힌트에 얼마나 강하게 의존하는지를 측정합니다. 우리는 낮은 힌트 의존성이 힌트 있음 성공에서 힌트 없음 성공으로의更强的 전이(transfer)를 의미한다는 전이 가능성 결과를 유도하고, 이 결과를 힌터 학습을 위한 전이 가중 보상(transfer-weighted reward)을 정의하는 데 사용합니다. 따라서 HiLL는 정보성 있는 GRPO 그룹을 복구할 뿐만 아니라, 원본 무힌트 정책 개선 가능성이更高的 신호를 생성하는 힌트를 선호합니다. 다양한 벤치마크에서의 실험 결과, HiLL는 GRPO 및 기존 힌트 기반 비교 방법론을 꾸준히 능가하여 RL을 위한 적응형 및 전이 인식형 힌트 학습의 가치를 입증했습니다. 코드는 https://github.com/Andree-9/HiLL에서 확인할 수 있습니다.
English
Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.
PDF31April 10, 2026