ChatPaper.aiChatPaper

Visão-R1: Incentivando a Capacidade de Raciocínio em Modelos de Linguagem Multimodais de Grande Escala

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

March 9, 2025
Autores: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
cs.AI

Resumo

O DeepSeek-R1-Zero demonstrou com sucesso o surgimento de capacidades de raciocínio em LLMs (Large Language Models) exclusivamente por meio de Aprendizado por Reforço (Reinforcement Learning - RL). Inspirados por esse avanço, exploramos como o RL pode ser utilizado para aprimorar a capacidade de raciocínio de MLLMs (Multimodal Large Language Models). No entanto, o treinamento direto com RL enfrenta dificuldades para ativar capacidades complexas de raciocínio, como questionamento e reflexão em MLLMs, devido à ausência de dados substanciais e de alta qualidade para raciocínio multimodal. Para resolver esse problema, propomos o MLLM de raciocínio, Vision-R1, para melhorar a capacidade de raciocínio multimodal. Especificamente, primeiro construímos um conjunto de dados multimodal CoT (Chain-of-Thought) de alta qualidade sem anotações humanas, aproveitando um MLLM existente e o DeepSeek-R1 por meio de ponte de modalidades e filtragem de dados, obtendo um conjunto de dados multimodal CoT de 200K, chamado Vision-R1-cold. Ele serve como dados de inicialização a frio para o Vision-R1. Para mitigar os desafios de otimização causados pelo excesso de pensamento após a inicialização a frio, propomos a estratégia de Treinamento Progressivo de Supressão de Pensamento (Progressive Thinking Suppression Training - PTST) e empregamos a Otimização de Política Relativa em Grupo (Group Relative Policy Optimization - GRPO) com a função de recompensa de formatação rígida de resultados, refinando gradualmente a capacidade do modelo de aprender processos de raciocínio corretos e complexos em um conjunto de dados matemático multimodal de 10K. Experimentos abrangentes mostram que nosso modelo alcança uma melhoria média de ~6% em vários benchmarks de raciocínio matemático multimodal. O Vision-R1-7B alcança uma precisão de 73,5% no amplamente utilizado benchmark MathVista, ficando apenas 0,4% abaixo do modelo líder de raciocínio, OpenAI O1. Os conjuntos de dados e o código serão liberados em: https://github.com/Osilly/Vision-R1.
English
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by this breakthrough, we explore how RL can be utilized to enhance the reasoning capability of MLLMs. However, direct training with RL struggles to activate complex reasoning capabilities such as questioning and reflection in MLLMs, due to the absence of substantial high-quality multimodal reasoning data. To address this issue, we propose the reasoning MLLM, Vision-R1, to improve multimodal reasoning capability. Specifically, we first construct a high-quality multimodal CoT dataset without human annotations by leveraging an existing MLLM and DeepSeek-R1 through modality bridging and data filtering to obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as cold-start initialization data for Vision-R1. To mitigate the optimization challenges caused by overthinking after cold start, we propose Progressive Thinking Suppression Training (PTST) strategy and employ Group Relative Policy Optimization (GRPO) with the hard formatting result reward function to gradually refine the model's ability to learn correct and complex reasoning processes on a 10K multimodal math dataset. Comprehensive experiments show our model achieves an average improvement of sim6% across various multimodal math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely used MathVista benchmark, which is only 0.4% lower than the leading reasoning model, OpenAI O1. The datasets and code will be released in: https://github.com/Osilly/Vision-R1 .

Summary

AI-Generated Summary

PDF292March 11, 2025