ChatPaper.aiChatPaper

Weniger Rauschen, mehr Stimme: Verstärkungslernen für das Schlussfolgern durch Instruktionsreinigung

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

January 29, 2026
papers.authors: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
cs.AI

papers.abstract

Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat das Reasoning von LLMs vorangetrieben, bleibt jedoch durch ineffiziente Exploration unter begrenzten Rollout-Budgets eingeschränkt, was zu geringer Sampling-Erfolgsrate und instabilem Training bei komplexen Aufgaben führt. Wir stellen fest, dass viele Explorationsfehler nicht von der Problemerschwerung herrühren, sondern von einer kleinen Anzahl von Prompt-Tokens, die Interferenzen verursachen. Aufbauend auf dieser Erkenntnis schlagen wir das Less Noise Sampling Framework (LENS) vor, das zunächst durch Identifizierung und Entfernung von Interferenz-Tokens promoptet. Anschließend überträgt es erfolgreiche Rollouts aus dem Bereinigungsprozess, um die Policy-Optimierung auf den ursprünglichen verrauschten Prompts zu überwachen, wodurch das Modell lernt, Interferenzen in realen, verrauschten Prompting-Szenarien zu ignorieren. Experimentelle Ergebnisse zeigen, dass LENS GRPO deutlich übertrifft, höhere Leistung und schnellere Konvergenz liefert, mit einem durchschnittlichen Gewinn von 3,88 % und einer mehr als 1,6-fachen Beschleunigung. Unsere Arbeit unterstreicht die kritische Rolle der Bereinigung von Interferenz-Tokens bei der Verbesserung der Rollout-Effizienz und bietet eine neue Perspektive für die RLVR-Forschung.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.
PDF122February 5, 2026