VLM-R1: Un modelo grande de visión y lenguaje estilo R1 estable y generalizable

Resumen

Recientemente, DeepSeek R1 ha demostrado que el aprendizaje por refuerzo (RL, por sus siglas en inglés) puede mejorar sustancialmente las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) mediante un diseño simple pero efectivo. El núcleo de R1 radica en su formulación de recompensas basada en reglas, que aprovecha tareas con respuestas de verdad fundamental deterministas para permitir un cálculo de recompensas preciso y estable. En el dominio visual, observamos de manera similar que una amplia gama de tareas de comprensión visual están intrínsecamente equipadas con anotaciones de verdad fundamental bien definidas. Esta propiedad las hace naturalmente compatibles con mecanismos de recompensa basados en reglas. Motivados por esta observación, investigamos la extensión del aprendizaje por refuerzo al estilo R1 a los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés), con el objetivo de mejorar sus capacidades de razonamiento visual. Para ello, desarrollamos VLM-R1, un marco dedicado diseñado para aprovechar el RL para mejorar el rendimiento de los VLMs en tareas generales de visión-lenguaje. Utilizando este marco, exploramos además la viabilidad de aplicar RL al dominio visual. Los resultados experimentales indican que el modelo basado en RL no solo ofrece un rendimiento competitivo en tareas de comprensión visual, sino que también supera al Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en capacidad de generalización. Además, realizamos estudios de ablación exhaustivos que revelan una serie de hallazgos notables, incluyendo la presencia de "hacking de recompensas" en la detección de objetos, la aparición del "momento aha de OD", el impacto de la calidad de los datos de entrenamiento y el comportamiento de escalado del RL en diferentes tamaños de modelos. A través de estos análisis, buscamos profundizar en la comprensión de cómo el aprendizaje por refuerzo mejora las capacidades de los modelos de visión-lenguaje, y esperamos que nuestros hallazgos y contribuciones de código abierto apoyen el progreso continuo en la comunidad de RL de visión-lenguaje. Nuestro código y modelo están disponibles en https://github.com/om-ai-lab/VLM-R1.

English

Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs' performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the "OD aha moment", the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1

VLM-R1: Un modelo grande de visión y lenguaje estilo R1 estable y generalizable

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Resumen

Support