VLM-R1: Стабильная и обобщаемая крупномасштабная модель обработки визуально-языковых данных в стиле R1
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
April 10, 2025
Авторы: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI
Аннотация
Недавно DeepSeek R1 продемонстрировал, что обучение с подкреплением (RL) может существенно улучшить способности к рассуждению у крупных языковых моделей (LLMs) благодаря простой, но эффективной конструкции. Основой R1 является его правило-ориентированная формулировка вознаграждения, которая использует задачи с детерминированными правильными ответами для обеспечения точного и стабильного вычисления вознаграждения. В визуальной области мы аналогично наблюдаем, что широкий спектр задач визуального понимания изначально снабжен четко определенными аннотациями. Это свойство делает их естественно совместимыми с правило-ориентированными механизмами вознаграждения. Вдохновленные этим наблюдением, мы исследуем расширение стиля обучения с подкреплением R1 на визуально-языковые модели (VLMs), стремясь улучшить их способности к визуальному рассуждению. Для этого мы разрабатываем VLM-R1, специализированную структуру, предназначенную для использования RL для повышения производительности VLMs на общих задачах визуально-языкового взаимодействия. Используя эту структуру, мы также исследуем возможность применения RL в визуальной области. Результаты экспериментов показывают, что модель на основе RL не только демонстрирует конкурентоспособную производительность на задачах визуального понимания, но и превосходит тонкую настройку с учителем (SFT) в способности к обобщению. Кроме того, мы проводим всесторонние исследования, которые выявляют ряд значимых инсайтов, включая наличие "взлома вознаграждения" в обнаружении объектов, возникновение "момента озарения OD", влияние качества обучающих данных и масштабируемость RL для моделей разных размеров. Через эти анализы мы стремимся углубить понимание того, как обучение с подкреплением улучшает возможности визуально-языковых моделей, и надеемся, что наши результаты и открытые исходные материалы будут способствовать дальнейшему прогрессу в сообществе RL для визуально-языковых задач. Наш код и модель доступны по адресу https://github.com/om-ai-lab/VLM-R1.
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can
substantially improve the reasoning capabilities of Large Language Models
(LLMs) through a simple yet effective design. The core of R1 lies in its
rule-based reward formulation, which leverages tasks with deterministic
ground-truth answers to enable precise and stable reward computation. In the
visual domain, we similarly observe that a wide range of visual understanding
tasks are inherently equipped with well-defined ground-truth annotations. This
property makes them naturally compatible with rule-based reward mechanisms.
Motivated by this observation, we investigate the extension of R1-style
reinforcement learning to Vision-Language Models (VLMs), aiming to enhance
their visual reasoning capabilities. To this end, we develop VLM-R1, a
dedicated framework designed to harness RL for improving VLMs' performance on
general vision-language tasks. Using this framework, we further explore the
feasibility of applying RL to visual domain. Experimental results indicate that
the RL-based model not only delivers competitive performance on visual
understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in
generalization ability. Furthermore, we conduct comprehensive ablation studies
that uncover a series of noteworthy insights, including the presence of reward
hacking in object detection, the emergence of the "OD aha moment", the impact
of training data quality, and the scaling behavior of RL across different model
sizes. Through these analyses, we aim to deepen the understanding of how
reinforcement learning enhances the capabilities of vision-language models, and
we hope our findings and open-source contributions will support continued
progress in the vision-language RL community. Our code and model are available
at https://github.com/om-ai-lab/VLM-R1Summary
AI-Generated Summary