Menos Ruído, Mais Voz: Aprendizagem por Reforço para Raciocínio via Purificação de Instruções

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) avançou o raciocínio de LLMs, mas permanece limitado por uma exploração ineficiente sob orçamentos limitados de rollouts, resultando em baixo sucesso de amostragem e treinamento instável em tarefas complexas. Descobrimos que muitas falhas de exploração surgem não da dificuldade do problema, mas de um pequeno número de tokens de prompt que introduzem interferência. Com base nessa percepção, propomos o Less Noise Sampling Framework (LENS), que primeiro realiza o prompt identificando e removendo tokens de interferência, depois transfere rollouts bem-sucedidos do processo de purificação para supervisionar a otimização da política nos prompts originais ruidosos, permitindo que o modelo aprenda a ignorar interferência em configurações reais de prompt ruidosas. Resultados experimentais mostram que o LENS supera significativamente o GRPO, fornecendo maior desempenho e convergência mais rápida, com um ganho médio de 3,88% e aceleração superior a 1,6 vezes. Nosso trabalho destaca o papel crítico da poda de tokens de interferência na melhoria da eficiência de rollouts, oferecendo uma nova perspectiva para a pesquisa em RLVR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.

Menos Ruído, Mais Voz: Aprendizagem por Reforço para Raciocínio via Purificação de Instruções

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

Resumo

Support