ChatPaper.aiChatPaper

Skywork-R1V3 Technischer Bericht

Skywork-R1V3 Technical Report

July 8, 2025
papers.authors: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI

papers.abstract

Wir stellen Skywork-R1V3 vor, ein fortschrittliches, quelloffenes Vision-Sprache-Modell (VLM), das einen neuen Ansatz für visuelles Denken vorantreibt. Die zentrale Innovation besteht darin, die Fähigkeit zum logischen Schlussfolgern effektiv von textbasierten Large Language Models (LLMs) auf visuelle Aufgaben zu übertragen. Die hohe Leistungsfähigkeit von Skywork-R1V3 resultiert hauptsächlich aus unserem ausgeklügelten Post-Training-RL-Framework, das die Denkfähigkeit des Modells effektiv aktiviert und verbessert, ohne dass zusätzliches kontinuierliches Vortraining erforderlich ist. Durch dieses Framework decken wir weiterhin die grundlegende Rolle des Verbindungsmoduls bei der Erzielung einer robusten cross-modalen Ausrichtung für multimodale Denkmodelle auf. Zudem führen wir einen einzigartigen Indikator für die Denkfähigkeit ein, die Entropie der kritischen Denk-Tokens, der sich als äußerst effektiv für die Checkpoint-Auswahl während des RL-Trainings erwiesen hat. Skywork-R1V3 erzielt Spitzenergebnisse auf MMMU und verbessert sich signifikant von 64,3 % auf 76,0 %. Diese Leistung entspricht den Fähigkeiten von Einstiegsniveau-Menschen. Bemerkenswerterweise ermöglicht unser RL-gestützter Post-Training-Ansatz sogar dem 38B-Parameter-Modell, mit führenden Closed-Source-VLMs zu konkurrieren. Die Implementierung überträgt erfolgreich mathematisches Denken auf andere fachbezogene Denkaufgaben. Wir schließen eine Analyse von Curriculum-Learning- und Reinforcement-Finetuning-Strategien ein sowie eine breitere Diskussion über multimodales Denken. Skywork-R1V3 stellt einen bedeutenden Fortschritt im multimodalen Denken dar und zeigt RL als leistungsstarke Triebkraft für die Weiterentwicklung quelloffener VLM-Fähigkeiten.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model (VLM) that pioneers a new approach to visual reasoning. Its key innovation lies in effectively transferring reasoning skills from text-only Large Language Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily stems from our elaborate post-training RL framework, which effectively activates and enhances the model's reasoning ability, without the need for additional continue pre-training. Through this framework, we further uncover the fundamental role of the connector module in achieving robust cross-modal alignment for multimodal reasoning models. In addition, we introduce a unique indicator of reasoning capability, the entropy of critical reasoning tokens, which has proven highly effective for checkpoint selection during RL training. Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving from 64.3% to 76.0%. This performance matches entry-level human capabilities. Remarkably, our RL-powered post-training approach enables even the 38B parameter model to rival top closed-source VLMs. The implementation successfully transfers mathematical reasoning to other subject-related reasoning tasks. We also include an analysis of curriculum learning and reinforcement finetuning strategies, along with a broader discussion on multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal reasoning, showcasing RL as a powerful engine for advancing open-source VLM capabilities.
PDF562July 11, 2025