Minder Ruis, Meer Stem: Reinforcement Learning voor Redeneren via Instructiezuivering
Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
January 29, 2026
Auteurs: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft de redeneervaardigheid van grote taalmodelleen (LLM's) vooruitgebracht, maar wordt nog steeds beperkt door inefficiënte exploratie onder beperkte rollout-budgetten, wat leidt tot lage slaagkans bij sampling en onstabiele training in complexe taken. Wij constateren dat veel exploratiefouten niet voortkomen uit de probleemcomplexiteit, maar uit een klein aantal prompttokens die interferentie introduceren. Voortbouwend op dit inzicht stellen we het Less Noise Sampling Framework (LENS) voor, dat eerst prompt door interferentietokens te identificeren en te verwijderen. Vervolgens transfereert het succesvolle rollouts uit het zuiveringsproces om de policy-optimalisatie op de originele, ruisrijke prompts te superviseren, waardoor het model leert om interferentie te negeren in realistische, rumoerige promptomgevingen. Experimentele resultaten tonen aan dat LENS GRPO significant overtreft, met hogere prestaties en snellere convergentie, een gemiddelde winst van 3,88% en een meer dan 1,6 keer snellere snelheid. Ons werk benadrukt de cruciale rol van het snoeien van interferentietokens bij het verbeteren van de rollout-efficiëntie, en biedt een nieuw perspectief voor RLVR-onderzoek.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.