ChatPaper.aiChatPaper

Lernen, Hinweise für Bestärkendes Lernen zu geben

Learning to Hint for Reinforcement Learning

April 1, 2026
Autoren: Yu Xia, Canwen Xu, Zhewei Yao, Julian McAuley, Yuxiong He
cs.AI

Zusammenfassung

Group Relative Policy Optimization (GRPO) wird häufig für bestärkendes Lernen mit verifizierbaren Belohnungen eingesetzt, leidet jedoch oft unter einem Vorteilszusammenbruch: Wenn alle Rollouts in einer Gruppe die gleiche Belohnung erhalten, liefert die Gruppe einen relativen Vorteil von null und somit kein Lernsignal. Wenn beispielsweise eine Frage für den Reasoner zu schwierig ist, können alle gesampelten Rollouts falsch sein und keine Belohnung erhalten. Jüngste Arbeiten behandeln dieses Problem, indem sie solch schwierigen Fragen Hinweise oder Hilfsgerüste hinzufügen, sodass der Reasoner gemischte Ergebnisse liefert und ein Update ungleich null erhält. Bestehende Hinweise sind jedoch meist fest vorgegeben statt an den aktuellen Reasoner angepasst, und ein Hinweis, der unter der Hinweiseingabe ein Lernsignal erzeugt, verbessert nicht zwangsläufig die zur Testzeit verwendete Policy ohne Hinweise. Zu diesem Zweck schlagen wir Hint Learning for Reinforcement Learning (HiLL) vor, ein Framework, das während des RL eine Hint-Policy und eine Reasoner-Policy gemeinsam trainiert. Für jede schwierige Frage generiert der Hinter online Hinweise, die auf dem fehlerhaften Rollout des aktuellen Reasoners basieren, wodurch sich die Hinweisgenerierung an die sich entwickelnden Fehler des Reasoners anpassen kann. Wir führen zudem die Hinweisabhängigkeit ein, die misst, wie stark korrekte Hinweispfade vom Hinweis abhängen. Wir leiten ein Transferierbarkeitsresultat her, das zeigt, dass eine geringere Hinweisabhängigkeit eine stärkere Übertragung von Erfolg mit Hinweis auf Erfolg ohne Hinweis impliziert, und nutzen dieses Resultat, um eine transfergewichtete Belohnung für das Training des Hinters zu definieren. Daher begünstigt HiLL Hinweise, die nicht nur informative GRPO-Gruppen liefern, sondern auch Signale erzeugen, die mit höherer Wahrscheinlichkeit die ursprüngliche Policy ohne Hinweise verbessern. Experimente über mehrere Benchmarks hinweg zeigen, dass HiLL durchgängig GRPO und bisherige hinweisbasierte Baseline-Methoden übertrifft, was den Wert von adaptivem und transferbewusstem Hint Learning für RL demonstriert. Der Code ist verfügbar unter https://github.com/Andree-9/HiLL.
English
Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.
PDF31April 10, 2026