NoisyRollout : Renforcement du raisonnement visuel par augmentation des données

papers.abstract

Les récents progrès en apprentissage par renforcement (RL) ont renforcé les capacités de raisonnement des modèles vision-langage (VLMs). Cependant, l'amélioration de l'exploration des politiques pour mieux exploiter les ressources de calcul lors des tests reste peu explorée dans les VLMs. De plus, ces modèles continuent de rencontrer des difficultés avec une perception visuelle imparfaite, ce qui affecte par la suite le processus de raisonnement. Pour répondre à ces défis, nous proposons NoisyRollout, une approche RL simple mais efficace qui combine des trajectoires issues d'images propres et modérément déformées pour introduire une diversité ciblée dans la perception visuelle et les schémas de raisonnement qui en découlent. Sans coût d'entraînement supplémentaire, NoisyRollout améliore les capacités d'exploration des VLMs en intégrant un biais inductif orienté vers la vision. Par ailleurs, NoisyRollout utilise un plan d'atténuation du bruit qui réduit progressivement l'intensité de la distorsion au cours de l'entraînement, permettant de tirer profit des signaux bruités en début de phase tout en assurant la stabilité et la scalabilité de l'entraînement dans les étapes ultérieures. Avec seulement 2,1K échantillons d'entraînement, NoisyRollout atteint des performances de pointe parmi les modèles RL ajustés open-source sur 5 benchmarks hors domaine couvrant à la fois des tâches de raisonnement et de perception, tout en conservant des performances comparables voire supérieures dans le domaine d'origine.

English

Recent advances in reinforcement learning (RL) have strengthened the reasoning capabilities of vision-language models (VLMs). However, enhancing policy exploration to more effectively scale test-time compute remains underexplored in VLMs. In addition, VLMs continue to struggle with imperfect visual perception, which in turn affects the subsequent reasoning process. To this end, we propose NoisyRollout, a simple yet effective RL approach that mixes trajectories from both clean and moderately distorted images to introduce targeted diversity in visual perception and the resulting reasoning patterns. Without additional training cost, NoisyRollout enhances the exploration capabilities of VLMs by incorporating a vision-oriented inductive bias. Furthermore, NoisyRollout employs a noise annealing schedule that gradually reduces distortion strength over training, ensuring benefit from noisy signals early while maintaining training stability and scalability in later stages. With just 2.1K training samples, NoisyRollout achieves state-of-the-art performance among open-source RL-tuned models on 5 out-of-domain benchmarks spanning both reasoning and perception tasks, while preserving comparable or even better in-domain performance.

NoisyRollout : Renforcement du raisonnement visuel par augmentation des données

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

papers.abstract

Support