Rapporto Tecnico Skywork-R1V3
Skywork-R1V3 Technical Report
July 8, 2025
Autori: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI
Abstract
Presentiamo Skywork-R1V3, un avanzato modello visione-linguaggio (VLM) open-source che introduce un nuovo approccio al ragionamento visivo. La sua innovazione chiave risiede nel trasferire efficacemente le capacità di ragionamento dai modelli linguistici di grandi dimensioni (LLM) basati esclusivamente su testo ai compiti visivi. L'eccellente prestazione di Skywork-R1V3 deriva principalmente dal nostro sofisticato framework di post-addestramento RL, che attiva e potenzia in modo efficace la capacità di ragionamento del modello, senza la necessità di ulteriori fasi di pre-addestramento. Attraverso questo framework, scopriamo ulteriormente il ruolo fondamentale del modulo connettore nel raggiungere un solido allineamento cross-modale per i modelli di ragionamento multimodale. Inoltre, introduciamo un indicatore unico della capacità di ragionamento, l'entropia dei token critici di ragionamento, che si è dimostrato altamente efficace per la selezione dei checkpoint durante l'addestramento RL. Skywork-R1V3 raggiunge risultati all'avanguardia su MMMU, migliorando significativamente dal 64,3% al 76,0%. Questa prestazione eguaglia le capacità umane di livello base. Notevolmente, il nostro approccio di post-addestramento basato su RL consente persino al modello da 38B parametri di competere con i migliori VLM closed-source. L'implementazione trasferisce con successo il ragionamento matematico ad altri compiti di ragionamento legati a materie specifiche. Includiamo anche un'analisi delle strategie di curriculum learning e di fine-tuning con rinforzo, insieme a una discussione più ampia sul ragionamento multimodale. Skywork-R1V3 rappresenta un salto significativo nel ragionamento multimodale, dimostrando che l'RL è un potente motore per avanzare le capacità dei VLM open-source.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model
(VLM) that pioneers a new approach to visual reasoning. Its key innovation lies
in effectively transferring reasoning skills from text-only Large Language
Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily
stems from our elaborate post-training RL framework, which effectively
activates and enhances the model's reasoning ability, without the need for
additional continue pre-training. Through this framework, we further uncover
the fundamental role of the connector module in achieving robust cross-modal
alignment for multimodal reasoning models. In addition, we introduce a unique
indicator of reasoning capability, the entropy of critical reasoning tokens,
which has proven highly effective for checkpoint selection during RL training.
Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving
from 64.3% to 76.0%. This performance matches entry-level human capabilities.
Remarkably, our RL-powered post-training approach enables even the 38B
parameter model to rival top closed-source VLMs. The implementation
successfully transfers mathematical reasoning to other subject-related
reasoning tasks. We also include an analysis of curriculum learning and
reinforcement finetuning strategies, along with a broader discussion on
multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal
reasoning, showcasing RL as a powerful engine for advancing open-source VLM
capabilities.