VLM-R1: Ein stabiles und generalisierbares R1-artiges großes Vision-Sprache-Modell
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
April 10, 2025
Autoren: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI
Zusammenfassung
Kürzlich hat DeepSeek R1 gezeigt, dass Reinforcement Learning (RL) die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung durch ein einfaches, aber effektives Design erheblich verbessern kann. Der Kern von R1 liegt in seiner regelbasierten Belohnungsformulierung, die Aufgaben mit deterministischen Ground-Truth-Antworten nutzt, um eine präzise und stabile Belohnungsberechnung zu ermöglichen. Im visuellen Bereich beobachten wir ähnlich, dass eine Vielzahl von Aufgaben zum visuellen Verständnis von Natur aus mit klar definierten Ground-Truth-Annotationen ausgestattet sind. Diese Eigenschaft macht sie natürlich kompatibel mit regelbasierten Belohnungsmechanismen. Motiviert durch diese Beobachtung untersuchen wir die Erweiterung von R1-ähnlichem Reinforcement Learning auf Vision-Language Models (VLMs), mit dem Ziel, deren visuelle Schlussfolgerungsfähigkeiten zu verbessern. Zu diesem Zweck entwickeln wir VLM-R1, ein spezielles Framework, das darauf abzielt, RL zu nutzen, um die Leistung von VLMs bei allgemeinen Vision-Language-Aufgaben zu steigern. Mit diesem Framework untersuchen wir weiterhin die Machbarkeit der Anwendung von RL im visuellen Bereich. Experimentelle Ergebnisse zeigen, dass das RL-basierte Modell nicht nur wettbewerbsfähige Leistungen bei Aufgaben zum visuellen Verständnis erbringt, sondern auch die Generalisierungsfähigkeit von Supervised Fine-Tuning (SFT) übertrifft. Darüber hinaus führen wir umfassende Ablationsstudien durch, die eine Reihe bemerkenswerter Erkenntnisse aufdecken, darunter das Auftreten von Reward Hacking bei der Objekterkennung, das Auftreten des „OD Aha-Moments“, die Auswirkungen der Qualität der Trainingsdaten und das Skalierungsverhalten von RL bei verschiedenen Modellgrößen. Durch diese Analysen möchten wir das Verständnis vertiefen, wie Reinforcement Learning die Fähigkeiten von Vision-Language-Modellen verbessert, und wir hoffen, dass unsere Erkenntnisse und Open-Source-Beiträge den Fortschritt in der Vision-Language-RL-Community weiter unterstützen werden. Unser Code und Modell sind unter https://github.com/om-ai-lab/VLM-R1 verfügbar.
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can
substantially improve the reasoning capabilities of Large Language Models
(LLMs) through a simple yet effective design. The core of R1 lies in its
rule-based reward formulation, which leverages tasks with deterministic
ground-truth answers to enable precise and stable reward computation. In the
visual domain, we similarly observe that a wide range of visual understanding
tasks are inherently equipped with well-defined ground-truth annotations. This
property makes them naturally compatible with rule-based reward mechanisms.
Motivated by this observation, we investigate the extension of R1-style
reinforcement learning to Vision-Language Models (VLMs), aiming to enhance
their visual reasoning capabilities. To this end, we develop VLM-R1, a
dedicated framework designed to harness RL for improving VLMs' performance on
general vision-language tasks. Using this framework, we further explore the
feasibility of applying RL to visual domain. Experimental results indicate that
the RL-based model not only delivers competitive performance on visual
understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in
generalization ability. Furthermore, we conduct comprehensive ablation studies
that uncover a series of noteworthy insights, including the presence of reward
hacking in object detection, the emergence of the "OD aha moment", the impact
of training data quality, and the scaling behavior of RL across different model
sizes. Through these analyses, we aim to deepen the understanding of how
reinforcement learning enhances the capabilities of vision-language models, and
we hope our findings and open-source contributions will support continued
progress in the vision-language RL community. Our code and model are available
at https://github.com/om-ai-lab/VLM-R1Summary
AI-Generated Summary