Skywork R1V: Pioneirando o Raciocínio Multimodal com Cadeia de Pensamento
Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought
April 8, 2025
Autores: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Resumo
Apresentamos o Skywork R1V, um modelo de raciocínio multimodal que estende os modelos de linguagem de grande escala (LLM) da série R1 para modalidades visuais por meio de um método eficiente de transferência multimodal. Utilizando um projetor visual leve, o Skywork R1V facilita uma adaptação multimodal contínua sem a necessidade de retreinar o modelo de linguagem base ou o codificador de visão. Para fortalecer o alinhamento visual-textual, propomos uma estratégia de otimização híbrida que combina o Ajuste Fino Supervisionado Iterativo (SFT) com a Otimização de Política Relativa em Grupo (GRPO), aprimorando significativamente a eficiência da integração multimodal. Além disso, introduzimos uma abordagem de destilação de Cadeia de Pensamento (Chain-of-Thought) de comprimento adaptativo para a geração de dados de raciocínio. Essa abordagem otimiza dinamicamente o comprimento das cadeias de raciocínio, aumentando a eficiência de inferência e evitando o excesso de reflexão. Avaliações empíricas demonstram que o Skywork R1V, com apenas 38 bilhões de parâmetros, oferece desempenho competitivo, alcançando uma pontuação de 69,0 no benchmark MMMU e 67,5 no MathVista. Ao mesmo tempo, mantém um robusto desempenho em raciocínio textual, evidenciado por pontuações impressionantes de 72,0 no AIME e 94,0 no MATH500. Os pesos do modelo Skywork R1V foram disponibilizados publicamente para promover abertura e reprodutibilidade.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an
R1-series Large language models (LLM) to visual modalities via an efficient
multimodal transfer method. Leveraging a lightweight visual projector, Skywork
R1V facilitates seamless multimodal adaptation without necessitating retraining
of either the foundational language model or the vision encoder. To strengthen
visual-text alignment, we propose a hybrid optimization strategy that combines
Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization
(GRPO), significantly enhancing cross-modal integration efficiency.
Additionally, we introduce an adaptive-length Chain-of-Thought distillation
approach for reasoning data generation. This approach dynamically optimizes
reasoning chain lengths, thereby enhancing inference efficiency and preventing
excessive reasoning overthinking. Empirical evaluations demonstrate that
Skywork R1V, with only 38B parameters, delivers competitive performance,
achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista.
Meanwhile, it maintains robust textual reasoning performance, evidenced by
impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model
weights have been publicly released to promote openness and reproducibility.Summary
AI-Generated Summary