Меньше шума, больше смысла: обучение с подкреплением для логических рассуждений через очистку инструкций
Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
January 29, 2026
Авторы: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
cs.AI
Аннотация
Метод обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) усовершенствовал логические рассуждения больших языковых моделей (LLM), однако остается ограниченным неэффективным исследованием среды при ограниченных бюджетах прогонов, что приводит к низкому проценту успешных сэмплирований и нестабильному обучению в сложных задачах. Мы выяснили, что многие неудачи исследования вызваны не сложностью задачи, а небольшим количеством токенов в промпте, которые вносят интерференцию. Основываясь на этом наблюдении, мы предлагаем фреймворк Less Noise Sampling Framework (LENS), который сначала выполняет промптинг, идентифицируя и удаляя токены интерференции, а затем передает успешные прогоны из процесса очистки для управления оптимизацией политики на исходных зашумленных промптах. Это позволяет модели научиться игнорировать интерференцию в реальных зашумленных условиях промптинга. Результаты экспериментов показывают, что LENS значительно превосходит GRPO, демонстрируя более высокую производительность и более быструю сходимость со средним приростом в 3.88% и ускорением более чем в 1.6 раза. Наша работа подчеркивает ключевую роль удаления токенов интерференции для повышения эффективности прогонов, предлагая новую перспективу для исследований RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.