ChatPaper.aiChatPaper

VLM-R1: 安定性と汎用性を兼ね備えたR1スタイルの大規模視覚言語モデル

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

April 10, 2025
著者: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI

要旨

最近、DeepSeek R1は、シンプルでありながら効果的な設計により、強化学習(RL)が大規模言語モデル(LLMs)の推論能力を大幅に向上させることができることを示しました。R1の核心は、そのルールベースの報酬設計にあり、決定論的な正解を持つタスクを活用することで、正確で安定した報酬計算を可能にしています。視覚領域においても、同様に、幅広い視覚理解タスクが本質的に明確な正解アノテーションを備えていることが観察されます。この特性により、これらのタスクはルールベースの報酬メカニズムと自然に互換性があります。この観察に基づき、我々はR1スタイルの強化学習を視覚言語モデル(VLMs)に拡張し、その視覚推論能力を向上させることを目指して調査を行いました。この目的のために、我々はVLM-R1を開発しました。これは、VLMsの一般的な視覚言語タスクにおける性能を向上させるためにRLを活用する専用のフレームワークです。このフレームワークを使用して、我々はさらに視覚領域にRLを適用する可能性を探求しました。実験結果は、RLベースのモデルが視覚理解タスクにおいて競争力のある性能を発揮するだけでなく、教師あり微調整(SFT)を一般化能力において上回ることを示しています。さらに、我々は包括的なアブレーション研究を実施し、物体検出における報酬ハッキングの存在、「OD aha moment」の出現、トレーニングデータ品質の影響、および異なるモデルサイズにおけるRLのスケーリング挙動など、一連の注目すべき洞察を明らかにしました。これらの分析を通じて、我々は強化学習が視覚言語モデルの能力をどのように向上させるかを深く理解することを目指し、我々の研究成果とオープンソースの貢献が視覚言語RLコミュニティの継続的な進歩を支援することを願っています。我々のコードとモデルはhttps://github.com/om-ai-lab/VLM-R1で公開されています。
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs' performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the "OD aha moment", the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1

Summary

AI-Generated Summary

PDF312April 14, 2025