Vision-R1: Стимулирование способности к рассуждению в мультимодальных крупных языковых моделях
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
March 9, 2025
Авторы: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
cs.AI
Аннотация
DeepSeek-R1-Zero успешно продемонстрировал возникновение способностей к рассуждению в крупных языковых моделях (LLM) исключительно с помощью обучения с подкреплением (Reinforcement Learning, RL). Вдохновленные этим прорывом, мы исследуем, как RL может быть использован для улучшения способности к рассуждению в мультимодальных языковых моделях (MLLM). Однако прямое обучение с использованием RL сталкивается с трудностями в активации сложных способностей к рассуждению, таких как задавание вопросов и рефлексия, в MLLM из-за отсутствия значительного объема высококачественных мультимодальных данных для рассуждений. Для решения этой проблемы мы предлагаем мультимодальную модель рассуждений Vision-R1, направленную на улучшение способности к мультимодальным рассуждениям. В частности, мы сначала создаем высококачественный мультимодальный набор данных CoT (Chain-of-Thought) без человеческих аннотаций, используя существующую MLLM и DeepSeek-R1 через модальное связывание и фильтрацию данных, чтобы получить набор данных Vision-R1-cold, содержащий 200K мультимодальных CoT. Этот набор данных служит начальными данными для холодного старта Vision-R1. Чтобы смягчить проблемы оптимизации, вызванные чрезмерным усложнением после холодного старта, мы предлагаем стратегию Прогрессивного Подавления Мышления (Progressive Thinking Suppression Training, PTST) и используем Оптимизацию Относительной Политики Групп (Group Relative Policy Optimization, GRPO) с функцией вознаграждения за жесткое форматирование результатов, чтобы постепенно улучшать способность модели изучать правильные и сложные процессы рассуждений на наборе данных из 10K мультимодальных математических задач. Комплексные эксперименты показывают, что наша модель достигает среднего улучшения на ~6% в различных мультимодальных тестах на математические рассуждения. Vision-R1-7B достигает точности 73,5% на широко используемом бенчмарке MathVista, что всего на 0,4% ниже, чем у ведущей модели рассуждений OpenAI O1. Наборы данных и код будут опубликованы по адресу: https://github.com/Osilly/Vision-R1.
English
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning
capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by
this breakthrough, we explore how RL can be utilized to enhance the reasoning
capability of MLLMs. However, direct training with RL struggles to activate
complex reasoning capabilities such as questioning and reflection in MLLMs, due
to the absence of substantial high-quality multimodal reasoning data. To
address this issue, we propose the reasoning MLLM, Vision-R1, to improve
multimodal reasoning capability. Specifically, we first construct a
high-quality multimodal CoT dataset without human annotations by leveraging an
existing MLLM and DeepSeek-R1 through modality bridging and data filtering to
obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as
cold-start initialization data for Vision-R1. To mitigate the optimization
challenges caused by overthinking after cold start, we propose Progressive
Thinking Suppression Training (PTST) strategy and employ Group Relative Policy
Optimization (GRPO) with the hard formatting result reward function to
gradually refine the model's ability to learn correct and complex reasoning
processes on a 10K multimodal math dataset. Comprehensive experiments show our
model achieves an average improvement of sim6% across various multimodal
math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely
used MathVista benchmark, which is only 0.4% lower than the leading reasoning
model, OpenAI O1. The datasets and code will be released in:
https://github.com/Osilly/Vision-R1 .Summary
AI-Generated Summary