Skywork-R1V3 技術レポート
Skywork-R1V3 Technical Report
July 8, 2025
著者: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI
要旨
Skywork-R1V3を紹介する。これは、視覚的推論に新たなアプローチを切り開く先進的なオープンソースの視覚言語モデル(VLM)である。その主な革新点は、テキストのみの大規模言語モデル(LLM)から視覚タスクへ推論能力を効果的に転移させる点にある。Skywork-R1V3の優れた性能は、主に我々が考案した精緻なポストトレーニングRLフレームワークに由来する。このフレームワークは、追加の事前学習を必要とせず、モデルの推論能力を効果的に活性化し強化する。このフレームワークを通じて、我々はさらに、マルチモーダル推論モデルにおいて堅牢なクロスモーダルアラインメントを実現するためのコネクタモジュールの基本的な役割を明らかにした。加えて、推論能力の独自の指標として、重要な推論トークンのエントロピーを導入し、RLトレーニング中のチェックポイント選択に極めて有効であることを実証した。Skywork-R1V3はMMMUにおいて最先端の結果を達成し、64.3%から76.0%へと大幅に改善した。この性能は、人間の初級レベルの能力に匹敵する。特筆すべきは、我々のRLを活用したポストトレーニングアプローチにより、38BパラメータのモデルでさえもトップクラスのクローズドソースVLMと競合できる点である。この実装は、数学的推論を他の科目関連の推論タスクに成功裏に転移させる。また、カリキュラム学習と強化学習ファインチューニング戦略の分析、およびマルチモーダル推論に関する広範な議論も含めている。Skywork-R1V3は、マルチモーダル推論における大きな飛躍を表し、RLがオープンソースVLMの能力を進化させる強力なエンジンであることを示している。
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model
(VLM) that pioneers a new approach to visual reasoning. Its key innovation lies
in effectively transferring reasoning skills from text-only Large Language
Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily
stems from our elaborate post-training RL framework, which effectively
activates and enhances the model's reasoning ability, without the need for
additional continue pre-training. Through this framework, we further uncover
the fundamental role of the connector module in achieving robust cross-modal
alignment for multimodal reasoning models. In addition, we introduce a unique
indicator of reasoning capability, the entropy of critical reasoning tokens,
which has proven highly effective for checkpoint selection during RL training.
Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving
from 64.3% to 76.0%. This performance matches entry-level human capabilities.
Remarkably, our RL-powered post-training approach enables even the 38B
parameter model to rival top closed-source VLMs. The implementation
successfully transfers mathematical reasoning to other subject-related
reasoning tasks. We also include an analysis of curriculum learning and
reinforcement finetuning strategies, along with a broader discussion on
multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal
reasoning, showcasing RL as a powerful engine for advancing open-source VLM
capabilities.