Visão-R1: Incentivando a Capacidade de Raciocínio em Modelos de Linguagem Multimodais de Grande Escala
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
March 9, 2025
Autores: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
cs.AI
Resumo
O DeepSeek-R1-Zero demonstrou com sucesso o surgimento de capacidades de raciocínio em LLMs (Large Language Models) exclusivamente por meio de Aprendizado por Reforço (Reinforcement Learning - RL). Inspirados por esse avanço, exploramos como o RL pode ser utilizado para aprimorar a capacidade de raciocínio de MLLMs (Multimodal Large Language Models). No entanto, o treinamento direto com RL enfrenta dificuldades para ativar capacidades complexas de raciocínio, como questionamento e reflexão em MLLMs, devido à ausência de dados substanciais e de alta qualidade para raciocínio multimodal. Para resolver esse problema, propomos o MLLM de raciocínio, Vision-R1, para melhorar a capacidade de raciocínio multimodal. Especificamente, primeiro construímos um conjunto de dados multimodal CoT (Chain-of-Thought) de alta qualidade sem anotações humanas, aproveitando um MLLM existente e o DeepSeek-R1 por meio de ponte de modalidades e filtragem de dados, obtendo um conjunto de dados multimodal CoT de 200K, chamado Vision-R1-cold. Ele serve como dados de inicialização a frio para o Vision-R1. Para mitigar os desafios de otimização causados pelo excesso de pensamento após a inicialização a frio, propomos a estratégia de Treinamento Progressivo de Supressão de Pensamento (Progressive Thinking Suppression Training - PTST) e empregamos a Otimização de Política Relativa em Grupo (Group Relative Policy Optimization - GRPO) com a função de recompensa de formatação rígida de resultados, refinando gradualmente a capacidade do modelo de aprender processos de raciocínio corretos e complexos em um conjunto de dados matemático multimodal de 10K. Experimentos abrangentes mostram que nosso modelo alcança uma melhoria média de ~6% em vários benchmarks de raciocínio matemático multimodal. O Vision-R1-7B alcança uma precisão de 73,5% no amplamente utilizado benchmark MathVista, ficando apenas 0,4% abaixo do modelo líder de raciocínio, OpenAI O1. Os conjuntos de dados e o código serão liberados em: https://github.com/Osilly/Vision-R1.
English
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning
capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by
this breakthrough, we explore how RL can be utilized to enhance the reasoning
capability of MLLMs. However, direct training with RL struggles to activate
complex reasoning capabilities such as questioning and reflection in MLLMs, due
to the absence of substantial high-quality multimodal reasoning data. To
address this issue, we propose the reasoning MLLM, Vision-R1, to improve
multimodal reasoning capability. Specifically, we first construct a
high-quality multimodal CoT dataset without human annotations by leveraging an
existing MLLM and DeepSeek-R1 through modality bridging and data filtering to
obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as
cold-start initialization data for Vision-R1. To mitigate the optimization
challenges caused by overthinking after cold start, we propose Progressive
Thinking Suppression Training (PTST) strategy and employ Group Relative Policy
Optimization (GRPO) with the hard formatting result reward function to
gradually refine the model's ability to learn correct and complex reasoning
processes on a 10K multimodal math dataset. Comprehensive experiments show our
model achieves an average improvement of sim6% across various multimodal
math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely
used MathVista benchmark, which is only 0.4% lower than the leading reasoning
model, OpenAI O1. The datasets and code will be released in:
https://github.com/Osilly/Vision-R1 .Summary
AI-Generated Summary