VLM-R1: Un modelo grande de visión y lenguaje estilo R1 estable y generalizable
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
April 10, 2025
Autores: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI
Resumen
Recientemente, DeepSeek R1 ha demostrado que el aprendizaje por refuerzo (RL, por sus siglas en inglés) puede mejorar sustancialmente las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) mediante un diseño simple pero efectivo. El núcleo de R1 radica en su formulación de recompensas basada en reglas, que aprovecha tareas con respuestas de verdad fundamental deterministas para permitir un cálculo de recompensas preciso y estable. En el dominio visual, observamos de manera similar que una amplia gama de tareas de comprensión visual están intrínsecamente equipadas con anotaciones de verdad fundamental bien definidas. Esta propiedad las hace naturalmente compatibles con mecanismos de recompensa basados en reglas. Motivados por esta observación, investigamos la extensión del aprendizaje por refuerzo al estilo R1 a los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés), con el objetivo de mejorar sus capacidades de razonamiento visual. Para ello, desarrollamos VLM-R1, un marco dedicado diseñado para aprovechar el RL para mejorar el rendimiento de los VLMs en tareas generales de visión-lenguaje. Utilizando este marco, exploramos además la viabilidad de aplicar RL al dominio visual. Los resultados experimentales indican que el modelo basado en RL no solo ofrece un rendimiento competitivo en tareas de comprensión visual, sino que también supera al Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en capacidad de generalización. Además, realizamos estudios de ablación exhaustivos que revelan una serie de hallazgos notables, incluyendo la presencia de "hacking de recompensas" en la detección de objetos, la aparición del "momento aha de OD", el impacto de la calidad de los datos de entrenamiento y el comportamiento de escalado del RL en diferentes tamaños de modelos. A través de estos análisis, buscamos profundizar en la comprensión de cómo el aprendizaje por refuerzo mejora las capacidades de los modelos de visión-lenguaje, y esperamos que nuestros hallazgos y contribuciones de código abierto apoyen el progreso continuo en la comunidad de RL de visión-lenguaje. Nuestro código y modelo están disponibles en https://github.com/om-ai-lab/VLM-R1.
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can
substantially improve the reasoning capabilities of Large Language Models
(LLMs) through a simple yet effective design. The core of R1 lies in its
rule-based reward formulation, which leverages tasks with deterministic
ground-truth answers to enable precise and stable reward computation. In the
visual domain, we similarly observe that a wide range of visual understanding
tasks are inherently equipped with well-defined ground-truth annotations. This
property makes them naturally compatible with rule-based reward mechanisms.
Motivated by this observation, we investigate the extension of R1-style
reinforcement learning to Vision-Language Models (VLMs), aiming to enhance
their visual reasoning capabilities. To this end, we develop VLM-R1, a
dedicated framework designed to harness RL for improving VLMs' performance on
general vision-language tasks. Using this framework, we further explore the
feasibility of applying RL to visual domain. Experimental results indicate that
the RL-based model not only delivers competitive performance on visual
understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in
generalization ability. Furthermore, we conduct comprehensive ablation studies
that uncover a series of noteworthy insights, including the presence of reward
hacking in object detection, the emergence of the "OD aha moment", the impact
of training data quality, and the scaling behavior of RL across different model
sizes. Through these analyses, we aim to deepen the understanding of how
reinforcement learning enhances the capabilities of vision-language models, and
we hope our findings and open-source contributions will support continued
progress in the vision-language RL community. Our code and model are available
at https://github.com/om-ai-lab/VLM-R1