Skywork-R1V3 Technisch Rapport
Skywork-R1V3 Technical Report
July 8, 2025
Auteurs: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI
Samenvatting
We introduceren Skywork-R1V3, een geavanceerd, open-source vision-language model (VLM) dat een nieuwe aanpak voor visueel redeneren introduceert. De belangrijkste innovatie ligt in het effectief overdragen van redeneervaardigheden van tekstgebaseerde Large Language Models (LLMs) naar visuele taken. De sterke prestaties van Skywork-R1V3 zijn voornamelijk te danken aan ons uitgebreide post-training RL-framework, dat het redeneervermogen van het model effectief activeert en versterkt, zonder dat aanvullende continue pre-training nodig is. Via dit framework ontdekken we verder de fundamentele rol van de connectormodule bij het bereiken van robuuste cross-modale uitlijning voor multimodale redeneermodellen. Daarnaast introduceren we een unieke indicator van redeneervermogen, de entropie van kritieke redeneertokens, die zeer effectief is gebleken voor checkpointselectie tijdens RL-training. Skywork-R1V3 behaalt state-of-the-art resultaten op MMMU, met een significante verbetering van 64,3% naar 76,0%. Deze prestatie komt overeen met het niveau van beginnende menselijke vaardigheden. Opmerkelijk is dat onze RL-gestuurde post-training aanpak zelfs het 38B-parametermodel in staat stelt om te concurreren met top closed-source VLMs. De implementatie draagt succesvol wiskundig redeneren over naar andere vakgerelateerde redeneertaken. We voegen ook een analyse toe van curriculum learning en reinforcement finetuning-strategieën, samen met een bredere discussie over multimodaal redeneren. Skywork-R1V3 vertegenwoordigt een significante sprong voorwaarts in multimodaal redeneren en toont RL aan als een krachtige motor voor het bevorderen van open-source VLM-capaciteiten.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model
(VLM) that pioneers a new approach to visual reasoning. Its key innovation lies
in effectively transferring reasoning skills from text-only Large Language
Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily
stems from our elaborate post-training RL framework, which effectively
activates and enhances the model's reasoning ability, without the need for
additional continue pre-training. Through this framework, we further uncover
the fundamental role of the connector module in achieving robust cross-modal
alignment for multimodal reasoning models. In addition, we introduce a unique
indicator of reasoning capability, the entropy of critical reasoning tokens,
which has proven highly effective for checkpoint selection during RL training.
Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving
from 64.3% to 76.0%. This performance matches entry-level human capabilities.
Remarkably, our RL-powered post-training approach enables even the 38B
parameter model to rival top closed-source VLMs. The implementation
successfully transfers mathematical reasoning to other subject-related
reasoning tasks. We also include an analysis of curriculum learning and
reinforcement finetuning strategies, along with a broader discussion on
multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal
reasoning, showcasing RL as a powerful engine for advancing open-source VLM
capabilities.