ChatPaper.aiChatPaper

VLM-R1 : Un modèle de vision et langage de grande taille de style R1 stable et généralisable

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

April 10, 2025
Auteurs: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI

Résumé

Récemment, DeepSeek R1 a démontré que l'apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement des grands modèles de langage (LLMs) grâce à une conception simple mais efficace. Le cœur de R1 réside dans sa formulation de récompense basée sur des règles, qui exploite des tâches avec des réponses de vérité terrain déterministes pour permettre un calcul de récompense précis et stable. Dans le domaine visuel, nous observons de manière similaire qu'un large éventail de tâches de compréhension visuelle est intrinsèquement équipé d'annotations de vérité terrain bien définies. Cette propriété les rend naturellement compatibles avec des mécanismes de récompense basés sur des règles. Motivés par cette observation, nous étudions l'extension de l'apprentissage par renforcement de style R1 aux modèles vision-langage (VLMs), dans le but d'améliorer leurs capacités de raisonnement visuel. À cette fin, nous développons VLM-R1, un cadre dédié conçu pour exploiter le RL afin d'améliorer les performances des VLMs sur des tâches générales de vision-langage. En utilisant ce cadre, nous explorons davantage la faisabilité de l'application du RL au domaine visuel. Les résultats expérimentaux indiquent que le modèle basé sur le RL non seulement offre des performances compétitives sur les tâches de compréhension visuelle, mais dépasse également le réglage fin supervisé (SFT) en termes de capacité de généralisation. De plus, nous menons des études d'ablation approfondies qui révèlent une série d'observations notables, notamment la présence de triche de récompense dans la détection d'objets, l'émergence du "moment eurêka OD", l'impact de la qualité des données d'entraînement, et le comportement de mise à l'échelle du RL pour différentes tailles de modèles. À travers ces analyses, nous visons à approfondir la compréhension de la manière dont l'apprentissage par renforcement améliore les capacités des modèles vision-langage, et nous espérons que nos découvertes et contributions open-source soutiendront les progrès continus dans la communauté RL vision-langage. Notre code et modèle sont disponibles à l'adresse https://github.com/om-ai-lab/VLM-R1.
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs' performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the "OD aha moment", the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1

Summary

AI-Generated Summary

PDF312April 14, 2025