Skywork-VL Reward: Un Modello di Ricompensa Efficace per la Comprensione e il Ragionamento Multimodale
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
May 12, 2025
Autori: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Abstract
Proponiamo Skywork-VL Reward, un modello di reward multimodale che fornisce segnali di reward sia per compiti di comprensione che di ragionamento multimodale. Il nostro approccio tecnico comprende due componenti chiave: in primo luogo, costruiamo un dataset di preferenze multimodali su larga scala che copre un'ampia gamma di compiti e scenari, con risposte raccolte sia da modelli standard di visione e linguaggio (VLMs) che da ragionatori VLM avanzati. In secondo luogo, progettiamo un'architettura di reward model basata su Qwen2.5-VL-7B-Instruct, integrando una testa di reward e applicando una messa a punto multi-stadio utilizzando la perdita di ranking su coppie di dati di preferenza. Le valutazioni sperimentali dimostrano che Skywork-VL Reward raggiunge risultati all'avanguardia su VL-RewardBench multimodale e mostra prestazioni competitive sul benchmark RewardBench esclusivamente testuale. Inoltre, i dati di preferenza costruiti basandosi su Skywork-VL Reward si rivelano altamente efficaci per l'addestramento di Mixed Preference Optimization (MPO), portando a significativi miglioramenti nelle capacità di ragionamento multimodale. I nostri risultati sottolineano Skywork-VL Reward come un progresso significativo verso modelli di reward affidabili e di uso generale per l'allineamento multimodale. Il nostro modello è stato rilasciato pubblicamente per promuovere trasparenza e riproducibilità.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward
signals for both multimodal understanding and reasoning tasks. Our technical
approach comprises two key components: First, we construct a large-scale
multimodal preference dataset that covers a wide range of tasks and scenarios,
with responses collected from both standard vision-language models (VLMs) and
advanced VLM reasoners. Second, we design a reward model architecture based on
Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage
fine-tuning using pairwise ranking loss on pairwise preference data.
Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art
results on multimodal VL-RewardBench and exhibits competitive performance on
the text-only RewardBench benchmark. Furthermore, preference data constructed
based on our Skywork-VL Reward proves highly effective for training Mixed
Preference Optimization (MPO), leading to significant improvements in
multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as
a significant advancement toward general-purpose, reliable reward models for
multimodal alignment. Our model has been publicly released to promote
transparency and reproducibility.