ChatPaper.aiChatPaper

Informe Técnico de Skywork-R1V3

Skywork-R1V3 Technical Report

July 8, 2025
Autores: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Yahui Zhou
cs.AI

Resumen

Presentamos Skywork-R1V3, un modelo avanzado de visión-lenguaje (VLM) de código abierto que introduce un nuevo enfoque para el razonamiento visual. Su innovación clave radica en la transferencia efectiva de habilidades de razonamiento desde modelos de lenguaje de gran escala (LLMs) basados únicamente en texto hacia tareas visuales. El alto rendimiento de Skywork-R1V3 se debe principalmente a nuestro elaborado marco de entrenamiento de refuerzo (RL) posterior, que activa y mejora eficazmente la capacidad de razonamiento del modelo, sin necesidad de un preentrenamiento adicional. A través de este marco, descubrimos el papel fundamental del módulo conector para lograr una alineación multimodal robusta en modelos de razonamiento multimodal. Además, introducimos un indicador único de capacidad de razonamiento: la entropía de los tokens críticos de razonamiento, que ha demostrado ser altamente efectivo para la selección de puntos de control durante el entrenamiento RL. Skywork-R1V3 alcanza resultados de vanguardia en MMMU, mejorando significativamente del 64.3% al 76.0%, un rendimiento que iguala las capacidades humanas de nivel básico. Notablemente, nuestro enfoque de entrenamiento posterior impulsado por RL permite que incluso el modelo de 38B parámetros compita con los mejores VLMs de código cerrado. La implementación transfiere con éxito el razonamiento matemático a otras tareas de razonamiento relacionadas con materias específicas. También incluimos un análisis de estrategias de aprendizaje curricular y ajuste fino por refuerzo, junto con una discusión más amplia sobre el razonamiento multimodal. Skywork-R1V3 representa un avance significativo en el razonamiento multimodal, demostrando que el RL es una herramienta poderosa para impulsar las capacidades de los VLMs de código abierto.
English
We introduce Skywork-R1V3, an advanced, open-source vision-language model (VLM) that pioneers a new approach to visual reasoning. Its key innovation lies in effectively transferring reasoning skills from text-only Large Language Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily stems from our elaborate post-training RL framework, which effectively activates and enhances the model's reasoning ability, without the need for additional continue pre-training. Through this framework, we further uncover the fundamental role of the connector module in achieving robust cross-modal alignment for multimodal reasoning models. In addition, we introduce a unique indicator of reasoning capability, the entropy of critical reasoning tokens, which has proven highly effective for checkpoint selection during RL training. Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving from 64.3% to 76.0%. This performance matches entry-level human capabilities. Remarkably, our RL-powered post-training approach enables even the 38B parameter model to rival top closed-source VLMs. The implementation successfully transfers mathematical reasoning to other subject-related reasoning tasks. We also include an analysis of curriculum learning and reinforcement finetuning strategies, along with a broader discussion on multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal reasoning, showcasing RL as a powerful engine for advancing open-source VLM capabilities.
PDF552July 11, 2025