ChatPaper.aiChatPaper

잡음을 줄이고 목소리를 높이다: 명령어 정제를 통한 추론 강화 학습

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

January 29, 2026
저자: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시켰지만, 제한된 롤아웟 예산 하에서 비효율적인 탐색으로 인해 여전히 제약을 받고 있어 복잡한 작업에서 표본 추출 성공률이 낮고 훈련이 불안정합니다. 우리는 많은 탐색 실패가 문제의 난이도 때문이 아니라 소수의 프롬프트 토큰이 간섭을 유발하기 때문에 발생함을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 간섭 토큰을 식별하여 제거한 후 프롬프트를 수행하는 Less Noise Sampling Framework(LENS)를 제안합니다. LENS는 정제 과정에서 성공한 롤아웟을 전이하여 원본 노이즈 프롬프트에 대한 정책 최적화를 지도함으로써, 모델이 실제 노이즈가 존재하는 프롬프트 환경에서 간섭을 무시하는 법을 학습하도록 합니다. 실험 결과, LENS는 GRPO를 크게 능가하며 더 높은 성능과 빠른 수렴 속도(평균 3.88% 성능 향상, 1.6배 이상의 속도 개선)를 보여줍니다. 우리의 연구는 롤아웟 효율성 향상을 위해 간섭 토큰을 제거하는 것이 중요한 역할을 함을 강조하며, RLVR 연구에 새로운 관점을 제시합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.
PDF122February 5, 2026