Relatório Técnico Skywork-R1V3
Skywork-R1V3 Technical Report
July 8, 2025
Autores: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI
Resumo
Apresentamos o Skywork-R1V3, um modelo avançado e de código aberto de linguagem-visão (VLM) que introduz uma nova abordagem para o raciocínio visual. Sua principal inovação reside na transferência eficaz de habilidades de raciocínio de modelos de linguagem de grande escala (LLMs) baseados apenas em texto para tarefas visuais. O forte desempenho do Skywork-R1V3 decorre principalmente de nosso elaborado framework de pós-treinamento com RL (Reinforcement Learning), que ativa e aprimora efetivamente a capacidade de raciocínio do modelo, sem a necessidade de pré-treinamento adicional contínuo. Por meio desse framework, descobrimos ainda o papel fundamental do módulo conector na obtenção de um alinhamento multimodal robusto para modelos de raciocínio multimodal. Além disso, introduzimos um indicador único de capacidade de raciocínio, a entropia dos tokens críticos de raciocínio, que se mostrou altamente eficaz para a seleção de checkpoints durante o treinamento com RL. O Skywork-R1V3 alcança resultados de ponta no MMMU, melhorando significativamente de 64,3% para 76,0%. Esse desempenho equipara-se às capacidades humanas de nível básico. Notavelmente, nossa abordagem de pós-treinamento com RL permite que até mesmo o modelo de 38B de parâmetros rivalize com os principais VLMs proprietários. A implementação transfere com sucesso o raciocínio matemático para outras tarefas de raciocínio relacionadas a disciplinas. Também incluímos uma análise das estratégias de aprendizado curricular e ajuste fino com reforço, juntamente com uma discussão mais ampla sobre raciocínio multimodal. O Skywork-R1V3 representa um salto significativo no raciocínio multimodal, demonstrando o RL como um motor poderoso para avançar as capacidades de VLMs de código aberto.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model
(VLM) that pioneers a new approach to visual reasoning. Its key innovation lies
in effectively transferring reasoning skills from text-only Large Language
Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily
stems from our elaborate post-training RL framework, which effectively
activates and enhances the model's reasoning ability, without the need for
additional continue pre-training. Through this framework, we further uncover
the fundamental role of the connector module in achieving robust cross-modal
alignment for multimodal reasoning models. In addition, we introduce a unique
indicator of reasoning capability, the entropy of critical reasoning tokens,
which has proven highly effective for checkpoint selection during RL training.
Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving
from 64.3% to 76.0%. This performance matches entry-level human capabilities.
Remarkably, our RL-powered post-training approach enables even the 38B
parameter model to rival top closed-source VLMs. The implementation
successfully transfers mathematical reasoning to other subject-related
reasoning tasks. We also include an analysis of curriculum learning and
reinforcement finetuning strategies, along with a broader discussion on
multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal
reasoning, showcasing RL as a powerful engine for advancing open-source VLM
capabilities.