ChatPaper.aiChatPaper

Skywork R1V: Innovando en el Razonamiento Multimodal con Cadena de Pensamiento

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

April 8, 2025
Autores: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Resumen

Presentamos Skywork R1V, un modelo de razonamiento multimodal que extiende los modelos de lenguaje grande (LLM) de la serie R1 a modalidades visuales mediante un método eficiente de transferencia multimodal. Aprovechando un proyector visual ligero, Skywork R1V facilita una adaptación multimodal sin fisuras sin necesidad de reentrenar ni el modelo de lenguaje base ni el codificador visual. Para fortalecer la alineación visual-textual, proponemos una estrategia de optimización híbrida que combina el Fine-Tuning Supervisado Iterativo (SFT) con la Optimización de Política Relativa en Grupo (GRPO), mejorando significativamente la eficiencia de la integración multimodal. Además, introducimos un enfoque de destilación de Cadena de Pensamiento (Chain-of-Thought) de longitud adaptativa para la generación de datos de razonamiento. Este enfoque optimiza dinámicamente las longitudes de las cadenas de razonamiento, mejorando así la eficiencia de inferencia y evitando un razonamiento excesivo. Las evaluaciones empíricas demuestran que Skywork R1V, con solo 38B parámetros, ofrece un rendimiento competitivo, alcanzando una puntuación de 69.0 en el benchmark MMMU y 67.5 en MathVista. Al mismo tiempo, mantiene un sólido rendimiento en razonamiento textual, evidenciado por impresionantes puntuaciones de 72.0 en AIME y 94.0 en MATH500. Los pesos del modelo Skywork R1V han sido liberados públicamente para promover la apertura y la reproducibilidad.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an R1-series Large language models (LLM) to visual modalities via an efficient multimodal transfer method. Leveraging a lightweight visual projector, Skywork R1V facilitates seamless multimodal adaptation without necessitating retraining of either the foundational language model or the vision encoder. To strengthen visual-text alignment, we propose a hybrid optimization strategy that combines Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), significantly enhancing cross-modal integration efficiency. Additionally, we introduce an adaptive-length Chain-of-Thought distillation approach for reasoning data generation. This approach dynamically optimizes reasoning chain lengths, thereby enhancing inference efficiency and preventing excessive reasoning overthinking. Empirical evaluations demonstrate that Skywork R1V, with only 38B parameters, delivers competitive performance, achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista. Meanwhile, it maintains robust textual reasoning performance, evidenced by impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model weights have been publicly released to promote openness and reproducibility.

Summary

AI-Generated Summary

PDF813April 9, 2025