ChatPaper.aiChatPaper

Moins de bruit, plus de voix : l'apprentissage par renforcement pour le raisonnement via la purification des instructions

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

January 29, 2026
papers.authors: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a fait progresser le raisonnement des LLM, mais reste limité par une exploration inefficace sous contrainte de budgets de déploiement limités, conduisant à un faible taux de succès d'échantillonnage et à un apprentissage instable dans les tâches complexes. Nous constatons que de nombreux échecs d'exploration ne proviennent pas de la difficulté du problème, mais d'un petit nombre de tokens d'invite qui introduisent des interférences. Forts de ce constat, nous proposons le cadre d'échantillonnage à moindre bruit (LENS), qui procède d'abord en identifiant et en supprimant les tokens interférents. Il transfère ensuite les déploiements réussis du processus de purification pour superviser l'optimisation de la politique sur les invites bruitées d'origine, permettant au modèle d'apprendre à ignorer les interférences dans des contextes d'invite réalistes et bruités. Les résultats expérimentaux montrent que LENS surpasse significativement GRPO, offrant de meilleures performances et une convergence plus rapide, avec un gain moyen de 3,88 % et une accélération supérieure à 1,6 fois. Notre travail souligne le rôle crucial de l'élagage des tokens interférents pour améliorer l'efficacité du déploiement, offrant une nouvelle perspective pour la recherche sur le RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.
PDF124February 8, 2026