ChatPaper.aiChatPaper

NoisyRollout: 데이터 증강을 통한 시각적 추론 강화

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

April 17, 2025
저자: Xiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu Dou, Haonan Wang, Tianyu Pang, Michael Qizhe Shieh
cs.AI

초록

최근 강화 학습(Reinforcement Learning, RL)의 발전으로 시각-언어 모델(Vision-Language Models, VLMs)의 추론 능력이 강화되었습니다. 그러나 VLMs에서 테스트 시 계산 자원을 더 효과적으로 확장하기 위한 정책 탐색(policy exploration) 강화는 여전히 충분히 연구되지 않았습니다. 또한, VLMs는 여전히 불완전한 시각 인식(visual perception)으로 인해 어려움을 겪고 있으며, 이는 이후의 추론 과정에도 영향을 미칩니다. 이를 해결하기 위해 우리는 NoisyRollout이라는 간단하지만 효과적인 RL 접근 방식을 제안합니다. 이 방법은 깨끗한 이미지와 적당히 왜곡된 이미지에서 얻은 궤적(trajectories)을 혼합하여 시각 인식과 그에 따른 추론 패턴에 목표적인 다양성을 도입합니다. 추가적인 학습 비용 없이 NoisyRollout은 시각 지향적 귀납적 편향(vision-oriented inductive bias)을 통합함으로써 VLMs의 탐색 능력을 향상시킵니다. 더 나아가, NoisyRollout은 학습 과정에서 왜곡 강도를 점진적으로 감소시키는 노이즈 어닐링 스케줄(noise annealing schedule)을 사용하여 초기 단계에서는 노이즈 신호로부터 이점을 얻으면서도 후기 단계에서는 학습 안정성과 확장성을 유지합니다. 단 2,100개의 학습 샘플만으로 NoisyRollout은 추론 및 인식 작업을 아우르는 5개의 도메인 외 벤치마크(out-of-domain benchmarks)에서 오픈소스 RL 튜닝 모델 중 최첨단 성능을 달성하며, 동시에 도메인 내 성능도 유사하거나 더 우수하게 유지합니다.
English
Recent advances in reinforcement learning (RL) have strengthened the reasoning capabilities of vision-language models (VLMs). However, enhancing policy exploration to more effectively scale test-time compute remains underexplored in VLMs. In addition, VLMs continue to struggle with imperfect visual perception, which in turn affects the subsequent reasoning process. To this end, we propose NoisyRollout, a simple yet effective RL approach that mixes trajectories from both clean and moderately distorted images to introduce targeted diversity in visual perception and the resulting reasoning patterns. Without additional training cost, NoisyRollout enhances the exploration capabilities of VLMs by incorporating a vision-oriented inductive bias. Furthermore, NoisyRollout employs a noise annealing schedule that gradually reduces distortion strength over training, ensuring benefit from noisy signals early while maintaining training stability and scalability in later stages. With just 2.1K training samples, NoisyRollout achieves state-of-the-art performance among open-source RL-tuned models on 5 out-of-domain benchmarks spanning both reasoning and perception tasks, while preserving comparable or even better in-domain performance.

Summary

AI-Generated Summary

PDF192April 18, 2025