NoisyRollout : Renforcement du raisonnement visuel par augmentation des données
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation
April 17, 2025
Auteurs: Xiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu Dou, Haonan Wang, Tianyu Pang, Michael Qizhe Shieh
cs.AI
Résumé
Les récents progrès en apprentissage par renforcement (RL) ont renforcé les capacités de raisonnement des modèles vision-langage (VLMs). Cependant, l'amélioration de l'exploration des politiques pour mieux exploiter les ressources de calcul lors des tests reste peu explorée dans les VLMs. De plus, ces modèles continuent de rencontrer des difficultés avec une perception visuelle imparfaite, ce qui affecte par la suite le processus de raisonnement. Pour répondre à ces défis, nous proposons NoisyRollout, une approche RL simple mais efficace qui combine des trajectoires issues d'images propres et modérément déformées pour introduire une diversité ciblée dans la perception visuelle et les schémas de raisonnement qui en découlent. Sans coût d'entraînement supplémentaire, NoisyRollout améliore les capacités d'exploration des VLMs en intégrant un biais inductif orienté vers la vision. Par ailleurs, NoisyRollout utilise un plan d'atténuation du bruit qui réduit progressivement l'intensité de la distorsion au cours de l'entraînement, permettant de tirer profit des signaux bruités en début de phase tout en assurant la stabilité et la scalabilité de l'entraînement dans les étapes ultérieures. Avec seulement 2,1K échantillons d'entraînement, NoisyRollout atteint des performances de pointe parmi les modèles RL ajustés open-source sur 5 benchmarks hors domaine couvrant à la fois des tâches de raisonnement et de perception, tout en conservant des performances comparables voire supérieures dans le domaine d'origine.
English
Recent advances in reinforcement learning (RL) have strengthened the
reasoning capabilities of vision-language models (VLMs). However, enhancing
policy exploration to more effectively scale test-time compute remains
underexplored in VLMs. In addition, VLMs continue to struggle with imperfect
visual perception, which in turn affects the subsequent reasoning process. To
this end, we propose NoisyRollout, a simple yet effective RL approach that
mixes trajectories from both clean and moderately distorted images to introduce
targeted diversity in visual perception and the resulting reasoning patterns.
Without additional training cost, NoisyRollout enhances the exploration
capabilities of VLMs by incorporating a vision-oriented inductive bias.
Furthermore, NoisyRollout employs a noise annealing schedule that gradually
reduces distortion strength over training, ensuring benefit from noisy signals
early while maintaining training stability and scalability in later stages.
With just 2.1K training samples, NoisyRollout achieves state-of-the-art
performance among open-source RL-tuned models on 5 out-of-domain benchmarks
spanning both reasoning and perception tasks, while preserving comparable or
even better in-domain performance.Summary
AI-Generated Summary