ChatPaper.aiChatPaper

Skywork-VL Reward: Um Modelo de Recompensa Eficaz para Compreensão e Raciocínio Multimodal

Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025
Autores: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Resumo

Propomos o Skywork-VL Reward, um modelo de recompensa multimodal que fornece sinais de recompensa tanto para tarefas de compreensão quanto de raciocínio multimodal. Nossa abordagem técnica compreende dois componentes principais: Primeiro, construímos um conjunto de dados de preferências multimodais em larga escala que abrange uma ampla gama de tarefas e cenários, com respostas coletadas de modelos padrão de visão e linguagem (VLMs) e de raciocinadores VLM avançados. Segundo, projetamos uma arquitetura de modelo de recompensa baseada no Qwen2.5-VL-7B-Instruct, integrando um cabeçalho de recompensa e aplicando ajuste fino em múltiplos estágios usando perda de classificação pareada em dados de preferência pareados. Avaliações experimentais mostram que o Skywork-VL Reward alcança resultados de ponta no benchmark multimodal VL-RewardBench e exibe desempenho competitivo no benchmark exclusivamente textual RewardBench. Além disso, dados de preferência construídos com base no nosso Skywork-VL Reward provaram ser altamente eficazes para treinar a Otimização de Preferência Mista (MPO), levando a melhorias significativas nas capacidades de raciocínio multimodal. Nossos resultados destacam o Skywork-VL Reward como um avanço significativo em direção a modelos de recompensa confiáveis e de propósito geral para alinhamento multimodal. Nosso modelo foi liberado publicamente para promover transparência e reprodutibilidade.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward signals for both multimodal understanding and reasoning tasks. Our technical approach comprises two key components: First, we construct a large-scale multimodal preference dataset that covers a wide range of tasks and scenarios, with responses collected from both standard vision-language models (VLMs) and advanced VLM reasoners. Second, we design a reward model architecture based on Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage fine-tuning using pairwise ranking loss on pairwise preference data. Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art results on multimodal VL-RewardBench and exhibits competitive performance on the text-only RewardBench benchmark. Furthermore, preference data constructed based on our Skywork-VL Reward proves highly effective for training Mixed Preference Optimization (MPO), leading to significant improvements in multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as a significant advancement toward general-purpose, reliable reward models for multimodal alignment. Our model has been publicly released to promote transparency and reproducibility.
PDF303February 8, 2026