ChatPaper.aiChatPaper

Rapport Technique Skywork-R1V3

Skywork-R1V3 Technical Report

July 8, 2025
papers.authors: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI

papers.abstract

Nous présentons Skywork-R1V3, un modèle vision-langage (VLM) open-source avancé qui inaugure une nouvelle approche du raisonnement visuel. Son innovation clé réside dans le transfert efficace des compétences de raisonnement des modèles de langage massifs (LLMs) textuels vers des tâches visuelles. La performance remarquable de Skywork-R1V3 découle principalement de notre cadre élaboré de post-entraînement par apprentissage par renforcement (RL), qui active et améliore efficacement la capacité de raisonnement du modèle, sans nécessiter de pré-entraînement supplémentaire. Grâce à ce cadre, nous mettons en lumière le rôle fondamental du module connecteur dans l'alignement intermodal robuste des modèles de raisonnement multimodal. Par ailleurs, nous introduisons un indicateur unique de capacité de raisonnement, l'entropie des tokens critiques de raisonnement, qui s'est avéré très efficace pour la sélection des points de contrôle lors de l'entraînement RL. Skywork-R1V3 atteint des résultats de pointe sur MMMU, passant de 64,3 % à 76,0 %, une performance comparable aux capacités humaines de niveau débutant. Fait notable, notre approche de post-entraînement par RL permet même au modèle de 38 milliards de paramètres de rivaliser avec les meilleurs VLMs propriétaires. L'implémentation réussit à transférer le raisonnement mathématique à d'autres tâches de raisonnement liées à des sujets spécifiques. Nous incluons également une analyse des stratégies d'apprentissage curriculaire et de réglage fin par renforcement, ainsi qu'une discussion plus large sur le raisonnement multimodal. Skywork-R1V3 représente un bond en avant significatif dans le raisonnement multimodal, démontrant que le RL est un moteur puissant pour faire progresser les capacités des VLMs open-source.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model (VLM) that pioneers a new approach to visual reasoning. Its key innovation lies in effectively transferring reasoning skills from text-only Large Language Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily stems from our elaborate post-training RL framework, which effectively activates and enhances the model's reasoning ability, without the need for additional continue pre-training. Through this framework, we further uncover the fundamental role of the connector module in achieving robust cross-modal alignment for multimodal reasoning models. In addition, we introduce a unique indicator of reasoning capability, the entropy of critical reasoning tokens, which has proven highly effective for checkpoint selection during RL training. Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving from 64.3% to 76.0%. This performance matches entry-level human capabilities. Remarkably, our RL-powered post-training approach enables even the 38B parameter model to rival top closed-source VLMs. The implementation successfully transfers mathematical reasoning to other subject-related reasoning tasks. We also include an analysis of curriculum learning and reinforcement finetuning strategies, along with a broader discussion on multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal reasoning, showcasing RL as a powerful engine for advancing open-source VLM capabilities.
PDF562July 11, 2025