Skywork R1V: 사고의 연쇄를 통한 다중모달 추론의 개척
Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought
April 8, 2025
저자: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
초록
우리는 R1 시리즈 대규모 언어 모델(LLM)을 시각적 모달리티로 확장한 다중모달 추론 모델인 Skywork R1V를 소개합니다. 경량화된 시각 프로젝터를 활용하여 Skywork R1V는 기반 언어 모델이나 시각 인코더의 재학습 없이도 원활한 다중모달 적응을 가능하게 합니다. 시각-텍스트 정렬을 강화하기 위해, 우리는 반복적 지도 미세 조정(SFT)과 그룹 상대 정책 최적화(GRPO)를 결합한 하이브리드 최적화 전략을 제안하며, 이를 통해 교차모달 통합 효율을 크게 향상시켰습니다. 또한, 추론 데이터 생성을 위해 적응형 길이의 사고 연쇄(Chain-of-Thought) 증류 방식을 도입했습니다. 이 방식은 추론 체인의 길이를 동적으로 최적화하여 추론 효율을 높이고 과도한 사고 과부하를 방지합니다. 실험적 평가 결과, Skywork R1V는 단 380억 개의 파라미터로도 경쟁력 있는 성능을 보이며, MMMU 벤치마크에서 69.0점, MathVista에서 67.5점을 달성했습니다. 동시에, AIME에서 72.0점, MATH500에서 94.0점이라는 인상적인 점수로 견고한 텍스트 추론 성능을 유지했습니다. Skywork R1V 모델 가중치는 개방성과 재현성을 촉진하기 위해 공개되었습니다.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an
R1-series Large language models (LLM) to visual modalities via an efficient
multimodal transfer method. Leveraging a lightweight visual projector, Skywork
R1V facilitates seamless multimodal adaptation without necessitating retraining
of either the foundational language model or the vision encoder. To strengthen
visual-text alignment, we propose a hybrid optimization strategy that combines
Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization
(GRPO), significantly enhancing cross-modal integration efficiency.
Additionally, we introduce an adaptive-length Chain-of-Thought distillation
approach for reasoning data generation. This approach dynamically optimizes
reasoning chain lengths, thereby enhancing inference efficiency and preventing
excessive reasoning overthinking. Empirical evaluations demonstrate that
Skywork R1V, with only 38B parameters, delivers competitive performance,
achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista.
Meanwhile, it maintains robust textual reasoning performance, evidenced by
impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model
weights have been publicly released to promote openness and reproducibility.Summary
AI-Generated Summary