ChatPaper.aiChatPaper

Обучение подсказкам для обучения с подкреплением

Learning to Hint for Reinforcement Learning

April 1, 2026
Авторы: Yu Xia, Canwen Xu, Zhewei Yao, Julian McAuley, Yuxiong He
cs.AI

Аннотация

Групповая относительная оптимизация политики (GRPO) широко используется для обучения с подкреплением с верифицируемыми вознаграждениями, однако она часто страдает от коллапса преимущества: когда все траектории в группе получают одинаковое вознаграждение, группа дает нулевое относительное преимущество и, следовательно, не создает сигнал для обучения. Например, если задача слишком сложна для системы принятия решений, все сэмплированные траектории могут оказаться неверными и получить нулевое вознаграждение. В последних работах эта проблема решается путем добавления подсказок или вспомогательных структур к таким сложным задачам, чтобы система выдавала смешанные результаты и восстанавливала ненулевое обновление. Однако существующие подсказки обычно фиксированы, а не адаптированы к текущей системе, и подсказка, создающая сигнал обучения для входных данных с подсказкой, не обязательно улучшает политику без подсказки, используемую во время тестирования. Для решения этой проблемы мы предлагаем обучение с подсказками для обучения с подкреплением (HiLL) — фреймворк, который совместно обучает политику генерации подсказок и политику принятия решений в процессе обучения с подкреплением. Для каждой сложной задачи генератор подсказок создает подсказки в режиме онлайн, учитывая некорректную траекторию текущей системы, что позволяет адаптировать генерацию подсказок к изменяющимся ошибкам системы. Мы также вводим понятие зависимости от подсказки, которое измеряет, насколько сильно корректные траектории с подсказкой зависят от самой подсказки. Мы выводим результат о переносимости, показывающий, что меньшая зависимость от подсказки implies более сильный перенос успеха с подсказкой на успех без подсказки, и используем этот результат для определения взвешенного по переносимости вознаграждения для обучения генератора подсказок. Таким образом, HiLL отдает предпочтение подсказкам, которые не только восстанавливают информативные группы GRPO, но и создают сигналы, с большей вероятностью улучшающие исходную политику без подсказки. Эксперименты на нескольких бенчмарках показывают, что HiLL последовательно превосходит GRPO и предыдущие подходы на основе подсказок, демонстрируя ценность адаптивного и учитывающего переносимость обучения подсказкам для обучения с подкреплением. Код доступен по адресу https://github.com/Andree-9/HiLL.
English
Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.
PDF31April 10, 2026