Vision-R1: Стимулирование способности к рассуждению в мультимодальных крупных языковых моделях

Аннотация

DeepSeek-R1-Zero успешно продемонстрировал возникновение способностей к рассуждению в крупных языковых моделях (LLM) исключительно с помощью обучения с подкреплением (Reinforcement Learning, RL). Вдохновленные этим прорывом, мы исследуем, как RL может быть использован для улучшения способности к рассуждению в мультимодальных языковых моделях (MLLM). Однако прямое обучение с использованием RL сталкивается с трудностями в активации сложных способностей к рассуждению, таких как задавание вопросов и рефлексия, в MLLM из-за отсутствия значительного объема высококачественных мультимодальных данных для рассуждений. Для решения этой проблемы мы предлагаем мультимодальную модель рассуждений Vision-R1, направленную на улучшение способности к мультимодальным рассуждениям. В частности, мы сначала создаем высококачественный мультимодальный набор данных CoT (Chain-of-Thought) без человеческих аннотаций, используя существующую MLLM и DeepSeek-R1 через модальное связывание и фильтрацию данных, чтобы получить набор данных Vision-R1-cold, содержащий 200K мультимодальных CoT. Этот набор данных служит начальными данными для холодного старта Vision-R1. Чтобы смягчить проблемы оптимизации, вызванные чрезмерным усложнением после холодного старта, мы предлагаем стратегию Прогрессивного Подавления Мышления (Progressive Thinking Suppression Training, PTST) и используем Оптимизацию Относительной Политики Групп (Group Relative Policy Optimization, GRPO) с функцией вознаграждения за жесткое форматирование результатов, чтобы постепенно улучшать способность модели изучать правильные и сложные процессы рассуждений на наборе данных из 10K мультимодальных математических задач. Комплексные эксперименты показывают, что наша модель достигает среднего улучшения на ~6% в различных мультимодальных тестах на математические рассуждения. Vision-R1-7B достигает точности 73,5% на широко используемом бенчмарке MathVista, что всего на 0,4% ниже, чем у ведущей модели рассуждений OpenAI O1. Наборы данных и код будут опубликованы по адресу: https://github.com/Osilly/Vision-R1.

English

DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by this breakthrough, we explore how RL can be utilized to enhance the reasoning capability of MLLMs. However, direct training with RL struggles to activate complex reasoning capabilities such as questioning and reflection in MLLMs, due to the absence of substantial high-quality multimodal reasoning data. To address this issue, we propose the reasoning MLLM, Vision-R1, to improve multimodal reasoning capability. Specifically, we first construct a high-quality multimodal CoT dataset without human annotations by leveraging an existing MLLM and DeepSeek-R1 through modality bridging and data filtering to obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as cold-start initialization data for Vision-R1. To mitigate the optimization challenges caused by overthinking after cold start, we propose Progressive Thinking Suppression Training (PTST) strategy and employ Group Relative Policy Optimization (GRPO) with the hard formatting result reward function to gradually refine the model's ability to learn correct and complex reasoning processes on a 10K multimodal math dataset. Comprehensive experiments show our model achieves an average improvement of sim6% across various multimodal math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely used MathVista benchmark, which is only 0.4% lower than the leading reasoning model, OpenAI O1. The datasets and code will be released in: https://github.com/Osilly/Vision-R1 .

Vision-R1: Стимулирование способности к рассуждению в мультимодальных крупных языковых моделях

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Аннотация

Support