Skywork R1V : Pionnier du raisonnement multimodal avec la chaîne de pensée
Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought
April 8, 2025
Auteurs: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Résumé
Nous présentons Skywork R1V, un modèle de raisonnement multimodal étendant les modèles de langage de grande taille (LLM) de la série R1 aux modalités visuelles via une méthode de transfert multimodal efficace. En s'appuyant sur un projecteur visuel léger, Skywork R1V facilite une adaptation multimodale fluide sans nécessiter de réentraînement du modèle de langage de base ou de l'encodeur visuel. Pour renforcer l'alignement visuel-textuel, nous proposons une stratégie d'optimisation hybride qui combine un Fine-Tuning Supervisé Itératif (SFT) avec une Optimisation de Politique Relative par Groupe (GRPO), améliorant significativement l'efficacité de l'intégration intermodale. De plus, nous introduisons une approche de distillation en Chaîne de Pensée à longueur adaptative pour la génération de données de raisonnement. Cette approche optimise dynamiquement les longueurs des chaînes de raisonnement, améliorant ainsi l'efficacité de l'inférence et prévenant un raisonnement excessif. Les évaluations empiriques démontrent que Skywork R1V, avec seulement 38 milliards de paramètres, offre des performances compétitives, atteignant un score de 69,0 sur le benchmark MMMU et 67,5 sur MathVista. Parallèlement, il maintient une performance robuste en raisonnement textuel, comme en témoignent les scores impressionnants de 72,0 sur AIME et 94,0 sur MATH500. Les poids du modèle Skywork R1V ont été rendus publics pour promouvoir l'ouverture et la reproductibilité.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an
R1-series Large language models (LLM) to visual modalities via an efficient
multimodal transfer method. Leveraging a lightweight visual projector, Skywork
R1V facilitates seamless multimodal adaptation without necessitating retraining
of either the foundational language model or the vision encoder. To strengthen
visual-text alignment, we propose a hybrid optimization strategy that combines
Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization
(GRPO), significantly enhancing cross-modal integration efficiency.
Additionally, we introduce an adaptive-length Chain-of-Thought distillation
approach for reasoning data generation. This approach dynamically optimizes
reasoning chain lengths, thereby enhancing inference efficiency and preventing
excessive reasoning overthinking. Empirical evaluations demonstrate that
Skywork R1V, with only 38B parameters, delivers competitive performance,
achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista.
Meanwhile, it maintains robust textual reasoning performance, evidenced by
impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model
weights have been publicly released to promote openness and reproducibility.Summary
AI-Generated Summary