Meno Rumore, Più Voce: Apprendimento per Rinforzo per il Ragionamento tramite Purificazione delle Istruzioni

Abstract

L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha fatto progredire il ragionamento dei LLM, ma rimane limitato da un'esplorazione inefficiente sotto budget di rollout limitati, portando a un basso successo di campionamento e un addestramento instabile in compiti complessi. Scopriamo che molti fallimenti nell'esplorazione non derivano dalla difficoltà del problema, ma da un piccolo numero di token prompt che introducono interferenze. Basandoci su questa intuizione, proponiamo il Less Noise Sampling Framework (LENS), che prima effettua il prompting identificando e rimuovendo i token di interferenza. Successivamente, trasferisce i rollout riusciti dal processo di purificazione per supervisionare l'ottimizzazione della politica sui prompt originali rumorosi, consentendo al modello di imparare a ignorare le interferenze nelle impostazioni reali e rumorose del prompting. I risultati sperimentali mostrano che LENS supera significativamente il GRPO, fornendo prestazioni più elevate e una convergenza più rapida, con un guadagno medio del 3,88% e un accelerazione di oltre 1,6 volte. Il nostro lavoro evidenzia il ruolo cruciale della potatura dei token di interferenza nel migliorare l'efficienza del rollout, offrendo una nuova prospettiva per la ricerca RLVR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.

Meno Rumore, Più Voce: Apprendimento per Rinforzo per il Ragionamento tramite Purificazione delle Istruzioni

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

Abstract

Support