ChatPaper.aiChatPaper

Relatório Técnico Skywork-R1V3

Skywork-R1V3 Technical Report

July 8, 2025
Autores: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI

Resumo

Apresentamos o Skywork-R1V3, um modelo avançado e de código aberto de linguagem-visão (VLM) que introduz uma nova abordagem para o raciocínio visual. Sua principal inovação reside na transferência eficaz de habilidades de raciocínio de modelos de linguagem de grande escala (LLMs) baseados apenas em texto para tarefas visuais. O forte desempenho do Skywork-R1V3 decorre principalmente de nosso elaborado framework de pós-treinamento com RL (Reinforcement Learning), que ativa e aprimora efetivamente a capacidade de raciocínio do modelo, sem a necessidade de pré-treinamento adicional contínuo. Por meio desse framework, descobrimos ainda o papel fundamental do módulo conector na obtenção de um alinhamento multimodal robusto para modelos de raciocínio multimodal. Além disso, introduzimos um indicador único de capacidade de raciocínio, a entropia dos tokens críticos de raciocínio, que se mostrou altamente eficaz para a seleção de checkpoints durante o treinamento com RL. O Skywork-R1V3 alcança resultados de ponta no MMMU, melhorando significativamente de 64,3% para 76,0%. Esse desempenho equipara-se às capacidades humanas de nível básico. Notavelmente, nossa abordagem de pós-treinamento com RL permite que até mesmo o modelo de 38B de parâmetros rivalize com os principais VLMs proprietários. A implementação transfere com sucesso o raciocínio matemático para outras tarefas de raciocínio relacionadas a disciplinas. Também incluímos uma análise das estratégias de aprendizado curricular e ajuste fino com reforço, juntamente com uma discussão mais ampla sobre raciocínio multimodal. O Skywork-R1V3 representa um salto significativo no raciocínio multimodal, demonstrando o RL como um motor poderoso para avançar as capacidades de VLMs de código aberto.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model (VLM) that pioneers a new approach to visual reasoning. Its key innovation lies in effectively transferring reasoning skills from text-only Large Language Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily stems from our elaborate post-training RL framework, which effectively activates and enhances the model's reasoning ability, without the need for additional continue pre-training. Through this framework, we further uncover the fundamental role of the connector module in achieving robust cross-modal alignment for multimodal reasoning models. In addition, we introduce a unique indicator of reasoning capability, the entropy of critical reasoning tokens, which has proven highly effective for checkpoint selection during RL training. Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving from 64.3% to 76.0%. This performance matches entry-level human capabilities. Remarkably, our RL-powered post-training approach enables even the 38B parameter model to rival top closed-source VLMs. The implementation successfully transfers mathematical reasoning to other subject-related reasoning tasks. We also include an analysis of curriculum learning and reinforcement finetuning strategies, along with a broader discussion on multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal reasoning, showcasing RL as a powerful engine for advancing open-source VLM capabilities.
PDF643July 11, 2025