ChatPaper.aiChatPaper

Skywork R1V: Pionierarbeit im multimodalen Denken mit Chain-of-Thought

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

April 8, 2025
Autoren: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Zusammenfassung

Wir stellen Skywork R1V vor, ein multimodales Reasoning-Modell, das die R1-Serie von Large Language Models (LLM) durch eine effiziente multimodale Transfermethode auf visuelle Modalitäten erweitert. Durch die Nutzung eines leichtgewichtigen visuellen Projektors ermöglicht Skywork R1V eine nahtlose multimodale Anpassung, ohne dass eine erneute Trainierung des zugrunde liegenden Sprachmodells oder des Vision-Encoders erforderlich ist. Um die visuell-textuelle Ausrichtung zu stärken, schlagen wir eine hybride Optimierungsstrategie vor, die Iterative Supervised Fine-Tuning (SFT) mit Group Relative Policy Optimization (GRPO) kombiniert und dadurch die Effizienz der cross-modalen Integration erheblich verbessert. Zusätzlich führen wir einen adaptiven Chain-of-Thought-Destillationsansatz zur Generierung von Reasoning-Daten ein. Dieser Ansatz optimiert die Längen der Reasoning-Ketten dynamisch, wodurch die Inferenzeffizienz gesteigert und übermäßiges „Overthinking“ im Reasoning-Prozess verhindert wird. Empirische Auswertungen zeigen, dass Skywork R1V mit nur 38B Parametern eine wettbewerbsfähige Leistung erzielt, mit einer Bewertung von 69,0 auf dem MMMU-Benchmark und 67,5 auf MathVista. Gleichzeitig behält es eine robuste textuelle Reasoning-Leistung bei, was durch beeindruckende Bewertungen von 72,0 auf AIME und 94,0 auf MATH500 belegt wird. Die Modellgewichte von Skywork R1V wurden öffentlich freigegeben, um Offenheit und Reproduzierbarkeit zu fördern.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an R1-series Large language models (LLM) to visual modalities via an efficient multimodal transfer method. Leveraging a lightweight visual projector, Skywork R1V facilitates seamless multimodal adaptation without necessitating retraining of either the foundational language model or the vision encoder. To strengthen visual-text alignment, we propose a hybrid optimization strategy that combines Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), significantly enhancing cross-modal integration efficiency. Additionally, we introduce an adaptive-length Chain-of-Thought distillation approach for reasoning data generation. This approach dynamically optimizes reasoning chain lengths, thereby enhancing inference efficiency and preventing excessive reasoning overthinking. Empirical evaluations demonstrate that Skywork R1V, with only 38B parameters, delivers competitive performance, achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista. Meanwhile, it maintains robust textual reasoning performance, evidenced by impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model weights have been publicly released to promote openness and reproducibility.

Summary

AI-Generated Summary

PDF813April 9, 2025