Aprendiendo a Sugerir para el Aprendizaje por Refuerzo

Resumen

El Group Relative Policy Optimization (GRPO) se utiliza ampliamente para el aprendizaje por refuerzo con recompensas verificables, pero a menudo sufre de colapso de ventaja: cuando todas las trayectorias en un grupo reciben la misma recompensa, el grupo produce una ventaja relativa cero y, por lo tanto, ninguna señal de aprendizaje. Por ejemplo, si una pregunta es demasiado difícil para el razonador, todas las trayectorias muestreadas pueden ser incorrectas y recibir una recompensa cero. Trabajos recientes abordan este problema añadiendo pistas o andamiajes auxiliares a preguntas tan difíciles para que el razonador produzca resultados mixtos y recupere una actualización distinta de cero. Sin embargo, las pistas existentes suelen ser fijas en lugar de adaptarse al razonador actual, y una pista que crea una señal de aprendizaje bajo la entrada con pista no necesariamente mejora la política sin pista utilizada en el momento de la prueba. Para ello, proponemos Hint Learning for Reinforcement Learning (HiLL), un marco que entrena conjuntamente una política de generación de pistas (hinter) y una política de razonamiento (reasoner) durante el aprendizaje por refuerzo. Para cada pregunta difícil, el hinter genera pistas en línea condicionadas a la trayectoria incorrecta del razonador actual, permitiendo que la generación de pistas se adapte a los errores en evolución del razonador. Además, introducimos la dependencia de la pista, que mide cuán fuertemente las trayectorias correctas con pista dependen de la pista. Derivamos un resultado de transferibilidad que muestra que una menor dependencia de la pista implica una mayor transferencia del éxito con pista al éxito sin pista, y utilizamos este resultado para definir una recompensa ponderada por transferencia para entrenar al hinter. Por lo tanto, HiLL favorece las pistas que no solo recuperan grupos GRPO informativos, sino que también producen señales que tienen más probabilidades de mejorar la política original sin pista. Los experimentos en múltiples benchmarks muestran que HiLL supera consistentemente a GRPO y a líneas base anteriores basadas en pistas, demostrando el valor del aprendizaje de pistas adaptativo y consciente de la transferencia para el aprendizaje por refuerzo. El código está disponible en https://github.com/Andree-9/HiLL.

English

Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.

Aprendiendo a Sugerir para el Aprendizaje por Refuerzo

Learning to Hint for Reinforcement Learning

Resumen

Support