VLM-R1: Een stabiel en generaliseerbaar R1-stijl groot visueel-taalmodel
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
April 10, 2025
Auteurs: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI
Samenvatting
Onlangs heeft DeepSeek R1 aangetoond dat reinforcement learning (RL) de redeneervaardigheden van Large Language Models (LLMs) aanzienlijk kan verbeteren door middel van een eenvoudig maar effectief ontwerp. De kern van R1 ligt in zijn regelgebaseerde beloningsformulering, die taken met deterministische grondwaarheid-antwoorden benut om nauwkeurige en stabiele beloningsberekening mogelijk te maken. In het visuele domein observeren we op vergelijkbare wijze dat een breed scala aan visuele begripstaken van nature zijn uitgerust met goed gedefinieerde grondwaarheid-annotaties. Deze eigenschap maakt ze van nature compatibel met regelgebaseerde beloningsmechanismen. Gemotiveerd door deze observatie onderzoeken we de uitbreiding van R1-stijl reinforcement learning naar Vision-Language Models (VLMs), met als doel hun visuele redeneervaardigheden te verbeteren. Hiertoe ontwikkelen we VLM-R1, een speciaal framework ontworpen om RL te benutten voor het verbeteren van de prestaties van VLMs op algemene visie-taaltaken. Met dit framework verkennen we verder de haalbaarheid van het toepassen van RL in het visuele domein. Experimentele resultaten geven aan dat het RL-gebaseerde model niet alleen competitieve prestaties levert op visuele begripstaken, maar ook Supervised Fine-Tuning (SFT) overtreft in generalisatievermogen. Bovendien voeren we uitgebreide ablatiestudies uit die een reeks opmerkelijke inzichten onthullen, waaronder de aanwezigheid van beloningsmanipulatie in objectdetectie, het ontstaan van het "OD aha-moment", de impact van de kwaliteit van trainingsdata en het schaalgedrag van RL bij verschillende modelgroottes. Door deze analyses willen we het begrip verdiepen van hoe reinforcement learning de capaciteiten van visie-taalmodelle verbetert, en we hopen dat onze bevindingen en open-source bijdragen de voortdurende vooruitgang in de visie-taal RL-gemeenschap zullen ondersteunen. Onze code en model zijn beschikbaar op https://github.com/om-ai-lab/VLM-R1.
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can
substantially improve the reasoning capabilities of Large Language Models
(LLMs) through a simple yet effective design. The core of R1 lies in its
rule-based reward formulation, which leverages tasks with deterministic
ground-truth answers to enable precise and stable reward computation. In the
visual domain, we similarly observe that a wide range of visual understanding
tasks are inherently equipped with well-defined ground-truth annotations. This
property makes them naturally compatible with rule-based reward mechanisms.
Motivated by this observation, we investigate the extension of R1-style
reinforcement learning to Vision-Language Models (VLMs), aiming to enhance
their visual reasoning capabilities. To this end, we develop VLM-R1, a
dedicated framework designed to harness RL for improving VLMs' performance on
general vision-language tasks. Using this framework, we further explore the
feasibility of applying RL to visual domain. Experimental results indicate that
the RL-based model not only delivers competitive performance on visual
understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in
generalization ability. Furthermore, we conduct comprehensive ablation studies
that uncover a series of noteworthy insights, including the presence of reward
hacking in object detection, the emergence of the "OD aha moment", the impact
of training data quality, and the scaling behavior of RL across different model
sizes. Through these analyses, we aim to deepen the understanding of how
reinforcement learning enhances the capabilities of vision-language models, and
we hope our findings and open-source contributions will support continued
progress in the vision-language RL community. Our code and model are available
at https://github.com/om-ai-lab/VLM-R1Summary
AI-Generated Summary