Skywork-VL Reward: Un Modelo de Recompensa Efectivo para la Comprensión y el Razonamiento Multimodal
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
May 12, 2025
Autores: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Resumen
Proponemos Skywork-VL Reward, un modelo de recompensa multimodal que proporciona señales de recompensa tanto para tareas de comprensión como de razonamiento multimodal. Nuestro enfoque técnico consta de dos componentes clave: primero, construimos un conjunto de datos de preferencias multimodal a gran escala que abarca una amplia gama de tareas y escenarios, con respuestas recopiladas tanto de modelos estándar de visión y lenguaje (VLMs) como de razonadores VLM avanzados. Segundo, diseñamos una arquitectura de modelo de recompensa basada en Qwen2.5-VL-7B-Instruct, integrando una cabeza de recompensa y aplicando un ajuste fino en múltiples etapas utilizando una pérdida de clasificación por pares sobre datos de preferencias por pares. Las evaluaciones experimentales muestran que Skywork-VL Reward alcanza resultados de vanguardia en el benchmark multimodal VL-RewardBench y exhibe un rendimiento competitivo en el benchmark exclusivo de texto RewardBench. Además, los datos de preferencia construidos basados en nuestro Skywork-VL Reward resultan altamente efectivos para entrenar Mixed Preference Optimization (MPO), lo que conduce a mejoras significativas en las capacidades de razonamiento multimodal. Nuestros resultados destacan a Skywork-VL Reward como un avance significativo hacia modelos de recompensa generales y confiables para la alineación multimodal. Nuestro modelo ha sido liberado públicamente para promover la transparencia y la reproducibilidad.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward
signals for both multimodal understanding and reasoning tasks. Our technical
approach comprises two key components: First, we construct a large-scale
multimodal preference dataset that covers a wide range of tasks and scenarios,
with responses collected from both standard vision-language models (VLMs) and
advanced VLM reasoners. Second, we design a reward model architecture based on
Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage
fine-tuning using pairwise ranking loss on pairwise preference data.
Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art
results on multimodal VL-RewardBench and exhibits competitive performance on
the text-only RewardBench benchmark. Furthermore, preference data constructed
based on our Skywork-VL Reward proves highly effective for training Mixed
Preference Optimization (MPO), leading to significant improvements in
multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as
a significant advancement toward general-purpose, reliable reward models for
multimodal alignment. Our model has been publicly released to promote
transparency and reproducibility.Summary
AI-Generated Summary