ChatPaper.aiChatPaper

Rapporto Tecnico Skywork-R1V3

Skywork-R1V3 Technical Report

July 8, 2025
Autori: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI

Abstract

Presentiamo Skywork-R1V3, un avanzato modello visione-linguaggio (VLM) open-source che introduce un nuovo approccio al ragionamento visivo. La sua innovazione chiave risiede nel trasferire efficacemente le capacità di ragionamento dai modelli linguistici di grandi dimensioni (LLM) basati esclusivamente su testo ai compiti visivi. L'eccellente prestazione di Skywork-R1V3 deriva principalmente dal nostro sofisticato framework di post-addestramento RL, che attiva e potenzia in modo efficace la capacità di ragionamento del modello, senza la necessità di ulteriori fasi di pre-addestramento. Attraverso questo framework, scopriamo ulteriormente il ruolo fondamentale del modulo connettore nel raggiungere un solido allineamento cross-modale per i modelli di ragionamento multimodale. Inoltre, introduciamo un indicatore unico della capacità di ragionamento, l'entropia dei token critici di ragionamento, che si è dimostrato altamente efficace per la selezione dei checkpoint durante l'addestramento RL. Skywork-R1V3 raggiunge risultati all'avanguardia su MMMU, migliorando significativamente dal 64,3% al 76,0%. Questa prestazione eguaglia le capacità umane di livello base. Notevolmente, il nostro approccio di post-addestramento basato su RL consente persino al modello da 38B parametri di competere con i migliori VLM closed-source. L'implementazione trasferisce con successo il ragionamento matematico ad altri compiti di ragionamento legati a materie specifiche. Includiamo anche un'analisi delle strategie di curriculum learning e di fine-tuning con rinforzo, insieme a una discussione più ampia sul ragionamento multimodale. Skywork-R1V3 rappresenta un salto significativo nel ragionamento multimodale, dimostrando che l'RL è un potente motore per avanzare le capacità dei VLM open-source.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model (VLM) that pioneers a new approach to visual reasoning. Its key innovation lies in effectively transferring reasoning skills from text-only Large Language Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily stems from our elaborate post-training RL framework, which effectively activates and enhances the model's reasoning ability, without the need for additional continue pre-training. Through this framework, we further uncover the fundamental role of the connector module in achieving robust cross-modal alignment for multimodal reasoning models. In addition, we introduce a unique indicator of reasoning capability, the entropy of critical reasoning tokens, which has proven highly effective for checkpoint selection during RL training. Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving from 64.3% to 76.0%. This performance matches entry-level human capabilities. Remarkably, our RL-powered post-training approach enables even the 38B parameter model to rival top closed-source VLMs. The implementation successfully transfers mathematical reasoning to other subject-related reasoning tasks. We also include an analysis of curriculum learning and reinforcement finetuning strategies, along with a broader discussion on multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal reasoning, showcasing RL as a powerful engine for advancing open-source VLM capabilities.
PDF663July 11, 2025