Aprendendo a Dar Dicas para o Aprendizado por Reforço

Resumo

O Otimização de Políticas Relativas ao Grupo (GRPO) é amplamente utilizada para aprendizagem por reforço com recompensas verificáveis, mas frequentemente sofre de colapso da vantagem: quando todas as rollouts em um grupo recebem a mesma recompensa, o grupo produz uma vantagem relativa zero e, portanto, nenhum sinal de aprendizagem. Por exemplo, se uma questão for muito difícil para o raciocinador, todas as rollouts amostradas podem estar incorretas e receber recompensa zero. Trabalhos recentes abordam essa questão adicionando dicas ou suportes auxiliares a tais questões difíceis, para que o raciocinador produza resultados mistos e recupere uma atualização não zero. No entanto, as dicas existentes são geralmente fixas, em vez de adaptadas ao raciocinador atual, e uma dica que cria um sinal de aprendizagem sob a entrada com dica não necessariamente melhora a política sem dica usada no tempo de teste. Para esse fim, propomos a Aprendizagem de Dicas para Aprendizagem por Reforço (HiLL), uma estrutura que treina conjuntamente uma política de dica (hinter) e uma política de raciocinador durante a AR. Para cada questão difícil, o hinter gera dicas online condicionadas à rollout incorreta do raciocinador atual, permitindo que a geração de dicas se adapte aos erros em evolução do raciocinador. Introduzimos ainda a dependência da dica, que mede o quanto as trajectórias corretas com dica dependem da dica. Derivamos um resultado de transferibilidade que mostra que uma menor dependência da dica implica uma transferência mais forte do sucesso com dica para o sucesso sem dica, e usamos esse resultado para definir uma recompensa ponderada pela transferência para treinar o hinter. Portanto, o HiLL favorece dicas que não apenas recuperam grupos GRPO informativos, mas também produzem sinais com maior probabilidade de melhorar a política original sem dica. Experiências em múltiplos benchmarks mostram que o HiLL supera consistentemente o GRPO e as linhas de base anteriores baseadas em dicas, demonstrando o valor da aprendizagem de dicas adaptativas e conscientes da transferência para a AR. O código está disponível em https://github.com/Andree-9/HiLL.

English

Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.

Aprendendo a Dar Dicas para o Aprendizado por Reforço

Learning to Hint for Reinforcement Learning

Resumo

Support