Menos Ruido, Más Voz: Aprendizaje por Refuerzo para el Razonamiento mediante Purificación de Instrucciones
Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
January 29, 2026
Autores: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado el razonamiento de los LLM, pero sigue limitado por una exploración ineficiente bajo presupuestos limitados de ejecución (rollout), lo que conduce a un bajo éxito de muestreo y a un entrenamiento inestable en tareas complejas. Descubrimos que muchos fracasos de exploración no surgen de la dificultad del problema, sino de un pequeño número de tokens en el prompt que introducen interferencias. Basándonos en esta idea, proponemos el Marco de Muestreo con Menos Ruido (LENS), que primero genera prompts identificando y eliminando los tokens de interferencia, y luego transfiere las ejecuciones exitosas del proceso de purificación para supervisar la optimización de la política en los prompts originales ruidosos, permitiendo que el modelo aprenda a ignorar las interferencias en entornos reales de prompting ruidoso. Los resultados experimentales muestran que LENS supera significativamente a GRPO, logrando un mayor rendimiento y una convergencia más rápida, con una ganancia promedio del 3.88% y una aceleración de más de 1.6 veces. Nuestro trabajo subraya el papel crítico de la poda de tokens de interferencia para mejorar la eficiencia de las ejecuciones, ofreciendo una nueva perspectiva para la investigación en RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.