ChatPaper.aiChatPaper

Skywork R1V: Baanbrekend multimodaal redeneren met keten-van-gedachten

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

April 8, 2025
Auteurs: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Samenvatting

We introduceren Skywork R1V, een multimodaal redeneermodel dat de R1-serie van grote taalmmodellen (LLM) uitbreidt naar visuele modaliteiten via een efficiënte multimodale transfermethode. Door gebruik te maken van een lichtgewicht visuele projector, vergemakkelijkt Skywork R1V naadloze multimodale aanpassing zonder dat het nodig is om het onderliggende taalmodel of de visuele encoder opnieuw te trainen. Om de visueel-tekstuele uitlijning te versterken, stellen we een hybride optimalisatiestrategie voor die Iteratieve Supervised Fine-Tuning (SFT) combineert met Group Relative Policy Optimization (GRPO), wat de efficiëntie van cross-modale integratie aanzienlijk verbetert. Daarnaast introduceren we een adaptieve Chain-of-Thought-distillatiebenadering voor het genereren van redeneergegevens. Deze benadering optimaliseert dynamisch de lengtes van redeneerketens, waardoor de inferentie-efficiëntie wordt verbeterd en overmatig redeneerdenken wordt voorkomen. Empirische evaluaties tonen aan dat Skywork R1V, met slechts 38B parameters, een competitieve prestaties levert, met een score van 69.0 op de MMMU-benchmark en 67.5 op MathVista. Tegelijkertijd behoudt het robuuste tekstuele redeneerprestaties, wat blijkt uit indrukwekkende scores van 72.0 op AIME en 94.0 op MATH500. De modelgewichten van Skywork R1V zijn openbaar vrijgegeven om openheid en reproduceerbaarheid te bevorderen.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an R1-series Large language models (LLM) to visual modalities via an efficient multimodal transfer method. Leveraging a lightweight visual projector, Skywork R1V facilitates seamless multimodal adaptation without necessitating retraining of either the foundational language model or the vision encoder. To strengthen visual-text alignment, we propose a hybrid optimization strategy that combines Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), significantly enhancing cross-modal integration efficiency. Additionally, we introduce an adaptive-length Chain-of-Thought distillation approach for reasoning data generation. This approach dynamically optimizes reasoning chain lengths, thereby enhancing inference efficiency and preventing excessive reasoning overthinking. Empirical evaluations demonstrate that Skywork R1V, with only 38B parameters, delivers competitive performance, achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista. Meanwhile, it maintains robust textual reasoning performance, evidenced by impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model weights have been publicly released to promote openness and reproducibility.

Summary

AI-Generated Summary

PDF813April 9, 2025