Leren om hints te geven voor reinforcement learning

Samenvatting

Groep Relatief Beleidsoptimalisatie (GRPO) wordt veel gebruikt voor reinforcement learning met verifieerbare beloningen, maar lijdt vaak onder voordeelcollaps: wanneer alle rollouts in een groep dezelfde beloning ontvangen, levert de groep een nul relatief voordeel op en dus geen leersignaal. Als een vraag bijvoorbeeld te moeilijk is voor de redenaar, kunnen alle bemonsterde rollouts incorrect zijn en nul beloning ontvangen. Recent werk lost dit op door hints of hulpscaffolds toe te voegen aan zulke moeilijke vragen, zodat de redenaar gemengde resultaten produceert en een niet-nul update herstelt. Bestaande hints zijn echter meestal vaststaand in plaats van aangepast aan de huidige redenaar, en een hint die een leersignaal creëert onder de gehinte invoer verbetert niet noodzakelijkerwijs het geen-hint-beleid dat tijdens de testfase wordt gebruikt. Daarom stellen wij Hint Leren voor Reinforcement Learning (HiLL) voor, een raamwerk dat gelijktijdig een hintbeleid en een redenaarbeleid traint tijdens RL. Voor elke moeilijke vraag genereert de hintgever online hints, afgestemd op de incorrecte rollout van de huidige redenaar, waardoor hintgeneratie kan worden aangepast aan de evoluerende fouten van de redenaar. We introduceren verder hintafhankelijkheid, die meet in hoeverre correcte gehinte trajecten afhangen van de hint. We leiden een overdraagbaarheidsresultaat af dat aantoont dat een lagere hintafhankelijkheid sterkere overdracht van gehint succes naar geen-hint succes impliceert, en we gebruiken dit resultaat om een overdraagbaarheidsgewogen beloning te definiëren voor het trainen van de hintgever. HiLL geeft daarom de voorkeur aan hints die niet alleen informatieve GRPO-groepen herstellen, maar ook signalen produceren die de oorspronkelijke geen-hint policy waarschijnlijker verbeteren. Experimenten over meerdere benchmarks tonen aan dat HiLL consistent beter presteert dan GRPO en eerdere hint-gebaseerde baseline-methoden, wat de waarde aantoont van adaptief en overdrachtbewust hintleren voor RL. De code is beschikbaar op https://github.com/Andree-9/HiLL.

English

Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.

Leren om hints te geven voor reinforcement learning

Learning to Hint for Reinforcement Learning

Samenvatting

Support