Imparare a Suggerire per l'Apprendimento per Rinforzo

Abstract

L'ottimizzazione delle politiche relative al gruppo (GRPO) è ampiamente utilizzata per l'apprendimento per rinforzo con ricompense verificabili, ma spesso soffre del collasso del vantaggio: quando tutti i rollout in un gruppo ricevono la stessa ricompensa, il gruppo produce un vantaggio relativo nullo e quindi nessun segnale di apprendimento. Ad esempio, se un problema è troppo difficile per il sistema di ragionamento, tutti i rollout campionati possono essere errati e ricevere ricompensa zero. Recenti lavori affrontano questo problema aggiungendo suggerimenti o strutture ausiliarie a tali problemi difficili, in modo che il sistema di ragionamento produca risultati misti e recuperi un aggiornamento non nullo. Tuttavia, i suggerimenti esistenti sono generalmente fissi piuttosto che adattati al sistema di ragionamento corrente, e un suggerimento che crea un segnale di apprendimento con l'input suggerito non necessariamente migliora la politica senza suggerimenti utilizzata al momento del test. A tal fine, proponiamo l'Apprendimento di Suggerimenti per l'Apprendimento per Rinforzo (HiLL), un framework che addestra congiuntamente una politica di suggerimento e una politica di ragionamento durante l'RL. Per ogni problema difficile, il generatore di suggerimenti produce hint online condizionati al rollout errato corrente del sistema di ragionamento, consentendo alla generazione di suggerimenti di adattarsi agli errori evolutivi del sistema di ragionamento. Introduciamo inoltre la dipendenza dal suggerimento, che misura quanto fortemente le traiettorie corrette suggerite dipendono dall'hint. Deriviamo un risultato di trasferibilità che mostra come una minore dipendenza dal suggerimento implichi un trasferimento più forte dal successo con suggerimento al successo senza suggerimento, e utilizziamo questo risultato per definire una ricompensa ponderata per il trasferimento per addestrare il generatore di suggerimenti. Pertanto, HiLL favorisce suggerimenti che non solo recuperano gruppi GRPO informativi, ma producono anche segnali che hanno maggiori probabilità di migliorare la politica originale senza suggerimenti. Esperimenti su molteplici benchmark mostrano che HiLL supera costantemente GRPO e i precedenti baseline basati su suggerimenti, dimostrando il valore dell'apprendimento di suggerimenti adattivi e consapevoli del trasferimento per l'RL. Il codice è disponibile all'indirizzo https://github.com/Andree-9/HiLL.

English

Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.

Imparare a Suggerire per l'Apprendimento per Rinforzo

Learning to Hint for Reinforcement Learning

Abstract

Support