ChatPaper.aiChatPaper

스카이워크-R1V3 기술 보고서

Skywork-R1V3 Technical Report

July 8, 2025
저자: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI

초록

우리는 시각적 추론에 대한 새로운 접근 방식을 개척하는 고급 오픈소스 시각-언어 모델(VLM)인 Skywork-R1V3를 소개한다. 이 모델의 주요 혁신은 텍스트 전용 대형 언어 모델(LLM)의 추론 능력을 시각적 작업으로 효과적으로 전이하는 데 있다. Skywork-R1V3의 강력한 성능은 주로 추가적인 사전 학습 없이도 모델의 추론 능력을 효과적으로 활성화하고 강화하는 우리의 정교한 사후 학습 RL 프레임워크에서 비롯된다. 이 프레임워크를 통해, 우리는 다중 모달 추론 모델에서 강력한 교차 모달 정렬을 달성하기 위한 커넥터 모듈의 근본적인 역할을 추가로 발견한다. 또한, 우리는 RL 훈련 중 체크포인트 선택에 매우 효과적인 것으로 입증된 추론 능력의 독특한 지표인 핵심 추론 토큰의 엔트로피를 소개한다. Skywork-R1V3는 MMMU에서 최첨단 결과를 달성하며, 64.3%에서 76.0%로 크게 향상되었다. 이 성능은 초급 인간의 능력과 맞먹는다. 특히, 우리의 RL 기반 사후 학습 접근 방식은 38B 파라미터 모델조차도 최고의 클로즈드소스 VLM과 경쟁할 수 있게 한다. 이 구현은 수학적 추론을 다른 주제 관련 추론 작업으로 성공적으로 전이한다. 우리는 또한 커리큘럼 학습과 강화 미세 조정 전략에 대한 분석과 더불어 다중 모달 추론에 대한 광범위한 논의를 포함한다. Skywork-R1V3는 다중 모달 추론에서의 중요한 도약을 나타내며, RL이 오픈소스 VLM 능력을 발전시키는 강력한 엔진임을 보여준다.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model (VLM) that pioneers a new approach to visual reasoning. Its key innovation lies in effectively transferring reasoning skills from text-only Large Language Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily stems from our elaborate post-training RL framework, which effectively activates and enhances the model's reasoning ability, without the need for additional continue pre-training. Through this framework, we further uncover the fundamental role of the connector module in achieving robust cross-modal alignment for multimodal reasoning models. In addition, we introduce a unique indicator of reasoning capability, the entropy of critical reasoning tokens, which has proven highly effective for checkpoint selection during RL training. Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving from 64.3% to 76.0%. This performance matches entry-level human capabilities. Remarkably, our RL-powered post-training approach enables even the 38B parameter model to rival top closed-source VLMs. The implementation successfully transfers mathematical reasoning to other subject-related reasoning tasks. We also include an analysis of curriculum learning and reinforcement finetuning strategies, along with a broader discussion on multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal reasoning, showcasing RL as a powerful engine for advancing open-source VLM capabilities.
PDF562July 11, 2025