Технический отчет Skywork-R1V3
Skywork-R1V3 Technical Report
July 8, 2025
Авторы: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI
Аннотация
Мы представляем Skywork-R1V3 — передовую модель обработки визуально-языковых данных (VLM) с открытым исходным кодом, которая предлагает новый подход к визуальному рассуждению. Её ключевая инновация заключается в эффективном переносе навыков рассуждения из текстовых крупных языковых моделей (LLM) на визуальные задачи. Высокая производительность Skywork-R1V3 в первую очередь обусловлена нашей тщательно разработанной посттренировочной RL-структурой, которая эффективно активирует и усиливает способность модели к рассуждению без необходимости дополнительного продолжения предварительного обучения. Благодаря этой структуре мы также раскрываем фундаментальную роль соединительного модуля в достижении устойчивого кросс-модального выравнивания для мультимодальных моделей рассуждения. Кроме того, мы вводим уникальный показатель способности к рассуждению — энтропию критических токенов рассуждения, который доказал свою высокую эффективность при выборе контрольных точек во время RL-обучения. Skywork-R1V3 достигает современных результатов на MMMU, значительно улучшая показатели с 64,3% до 76,0%. Эта производительность соответствует базовым человеческим возможностям. Примечательно, что наш посттренировочный подход с использованием RL позволяет даже 38B-параметрической модели конкурировать с лучшими закрытыми VLM. Реализация успешно переносит математическое рассуждение на другие задачи, связанные с предметной областью. Мы также включаем анализ стратегий обучения по учебному плану и тонкой настройки с подкреплением, а также более широкое обсуждение мультимодального рассуждения. Skywork-R1V3 представляет собой значительный скачок в области мультимодального рассуждения, демонстрируя RL как мощный инструмент для развития возможностей открытых VLM.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model
(VLM) that pioneers a new approach to visual reasoning. Its key innovation lies
in effectively transferring reasoning skills from text-only Large Language
Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily
stems from our elaborate post-training RL framework, which effectively
activates and enhances the model's reasoning ability, without the need for
additional continue pre-training. Through this framework, we further uncover
the fundamental role of the connector module in achieving robust cross-modal
alignment for multimodal reasoning models. In addition, we introduce a unique
indicator of reasoning capability, the entropy of critical reasoning tokens,
which has proven highly effective for checkpoint selection during RL training.
Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving
from 64.3% to 76.0%. This performance matches entry-level human capabilities.
Remarkably, our RL-powered post-training approach enables even the 38B
parameter model to rival top closed-source VLMs. The implementation
successfully transfers mathematical reasoning to other subject-related
reasoning tasks. We also include an analysis of curriculum learning and
reinforcement finetuning strategies, along with a broader discussion on
multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal
reasoning, showcasing RL as a powerful engine for advancing open-source VLM
capabilities.