Apprentissage de l'induction pour l'apprentissage par renforcement
Learning to Hint for Reinforcement Learning
April 1, 2026
Auteurs: Yu Xia, Canwen Xu, Zhewei Yao, Julian McAuley, Yuxiong He
cs.AI
Résumé
L'optimisation de politique relative au groupe (GRPO) est largement utilisée pour l'apprentissage par renforcement avec des récompenses vérifiables, mais elle souffre souvent d'un effondrement de l'avantage : lorsque toutes les trajectoires d'un groupe reçoivent la même récompense, le groupe produit un avantage relatif nul et donc aucun signal d'apprentissage. Par exemple, si une question est trop difficile pour le raisonneur, toutes les trajectoires échantillonnées peuvent être incorrectes et recevoir une récompense nulle. Des travaux récents abordent ce problème en ajoutant des indices ou des échafaudages auxiliaires à ces questions difficiles, afin que le raisonneur produise des résultats mitigés et retrouve une mise à jour non nulle. Cependant, les indices existants sont généralement fixes plutôt qu'adaptés au raisonneur actuel, et un indice qui crée un signal d'apprentissage sous l'entrée indicée n'améliore pas nécessairement la politique sans indice utilisée au moment du test. À cette fin, nous proposons l'Apprentissage d'Indices pour l'Apprentissage par Renforcement (HiLL), un cadre qui entraîne conjointement une politique de génération d'indices et une politique de raisonnement pendant l'apprentissage par renforcement. Pour chaque question difficile, le générateur d'indices produit des indices en ligne conditionnés à la trajectoire incorrecte du raisonneur actuel, permettant à la génération d'indices de s'adapter aux erreurs évolutives du raisonneur. Nous introduisons en outre la notion de dépendance à l'indice, qui mesure à quel point les trajectoires correctes avec indices dépendent fortement de l'indice. Nous dérivons un résultat de transférabilité montrant qu'une dépendance à l'indice plus faible implique un transfert plus fort de la réussite avec indices vers la réussite sans indices, et nous utilisons ce résultat pour définir une récompense pondérée par le transfert pour entraîner le générateur d'indices. Par conséquent, HiLL favorise les indices qui non seulement permettent de retrouver des groupes GRPO informatifs, mais produisent aussi des signaux plus susceptibles d'améliorer la politique originale sans indices. Les expériences sur plusieurs benchmarks montrent que HiLL surpasse constamment GRPO et les approches basées sur les indices antérieures, démontrant la valeur de l'apprentissage d'indices adaptatif et conscient du transfert pour l'apprentissage par renforcement. Le code est disponible à l'adresse https://github.com/Andree-9/HiLL.
English
Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.