VLM-R1: Um Modelo de Grande Escala Visão-Linguagem Estável e Generalizável no Estilo R1
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
April 10, 2025
Autores: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI
Resumo
Recentemente, o DeepSeek R1 demonstrou que o aprendizado por reforço (RL) pode melhorar substancialmente as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) por meio de um design simples, porém eficaz. O cerne do R1 reside em sua formulação de recompensa baseada em regras, que aproveita tarefas com respostas determinísticas de verdade fundamental para permitir um cálculo de recompensa preciso e estável. No domínio visual, observamos de forma semelhante que uma ampla gama de tarefas de compreensão visual é intrinsecamente equipada com anotações de verdade fundamental bem definidas. Essa propriedade as torna naturalmente compatíveis com mecanismos de recompensa baseados em regras. Motivados por essa observação, investigamos a extensão do aprendizado por reforço no estilo R1 para Modelos de Visão e Linguagem (VLMs), com o objetivo de aprimorar suas capacidades de raciocínio visual. Para isso, desenvolvemos o VLM-R1, um framework dedicado projetado para aproveitar o RL para melhorar o desempenho dos VLMs em tarefas gerais de visão e linguagem. Usando esse framework, exploramos ainda mais a viabilidade de aplicar o RL ao domínio visual. Os resultados experimentais indicam que o modelo baseado em RL não apenas oferece desempenho competitivo em tarefas de compreensão visual, mas também supera o Ajuste Fino Supervisionado (SFT) em capacidade de generalização. Além disso, realizamos estudos abrangentes de ablação que revelam uma série de insights notáveis, incluindo a presença de "reward hacking" na detecção de objetos, o surgimento do "momento 'aha' da OD", o impacto da qualidade dos dados de treinamento e o comportamento de escalonamento do RL em diferentes tamanhos de modelos. Por meio dessas análises, buscamos aprofundar a compreensão de como o aprendizado por reforço aprimora as capacidades dos modelos de visão e linguagem, e esperamos que nossas descobertas e contribuições de código aberto apoiem o progresso contínuo na comunidade de RL em visão e linguagem. Nosso código e modelo estão disponíveis em https://github.com/om-ai-lab/VLM-R1.
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can
substantially improve the reasoning capabilities of Large Language Models
(LLMs) through a simple yet effective design. The core of R1 lies in its
rule-based reward formulation, which leverages tasks with deterministic
ground-truth answers to enable precise and stable reward computation. In the
visual domain, we similarly observe that a wide range of visual understanding
tasks are inherently equipped with well-defined ground-truth annotations. This
property makes them naturally compatible with rule-based reward mechanisms.
Motivated by this observation, we investigate the extension of R1-style
reinforcement learning to Vision-Language Models (VLMs), aiming to enhance
their visual reasoning capabilities. To this end, we develop VLM-R1, a
dedicated framework designed to harness RL for improving VLMs' performance on
general vision-language tasks. Using this framework, we further explore the
feasibility of applying RL to visual domain. Experimental results indicate that
the RL-based model not only delivers competitive performance on visual
understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in
generalization ability. Furthermore, we conduct comprehensive ablation studies
that uncover a series of noteworthy insights, including the presence of reward
hacking in object detection, the emergence of the "OD aha moment", the impact
of training data quality, and the scaling behavior of RL across different model
sizes. Through these analyses, we aim to deepen the understanding of how
reinforcement learning enhances the capabilities of vision-language models, and
we hope our findings and open-source contributions will support continued
progress in the vision-language RL community. Our code and model are available
at https://github.com/om-ai-lab/VLM-R1Summary
AI-Generated Summary