Skywork-VL Reward: Een Effectief Beloningsmodel voor Multimodaal Begrip en Redeneren
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
May 12, 2025
Auteurs: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Samenvatting
Wij stellen Skywork-VL Reward voor, een multimodaal beloningsmodel dat beloningssignalen biedt voor zowel multimodale begrips- als redeneertaken. Onze technische aanpak bestaat uit twee belangrijke componenten: Ten eerste construeren we een grootschalige multimodale voorkeursdataset die een breed scala aan taken en scenario's omvat, met reacties verzameld van zowel standaard visie-taalmodellen (VLMs) als geavanceerde VLM-redeneerders. Ten tweede ontwerpen we een beloningsmodelarchitectuur gebaseerd op Qwen2.5-VL-7B-Instruct, waarbij we een beloningskop integreren en een meerfasige fine-tuning toepassen met behulp van paarsgewijze rangschikkingsverlies op paarsgewijze voorkeursdata. Experimentele evaluaties tonen aan dat Skywork-VL Reward state-of-the-art resultaten behaalt op de multimodale VL-RewardBench en competitieve prestaties vertoont op de tekstuele RewardBench-benchmark. Bovendien blijkt voorkeursdata die is geconstrueerd op basis van onze Skywork-VL Reward zeer effectief te zijn voor het trainen van Mixed Preference Optimization (MPO), wat leidt tot aanzienlijke verbeteringen in multimodale redeneervaardigheden. Onze resultaten onderstrepen Skywork-VL Reward als een belangrijke vooruitgang richting algemene, betrouwbare beloningsmodellen voor multimodale afstemming. Ons model is openbaar vrijgegeven om transparantie en reproduceerbaarheid te bevorderen.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward
signals for both multimodal understanding and reasoning tasks. Our technical
approach comprises two key components: First, we construct a large-scale
multimodal preference dataset that covers a wide range of tasks and scenarios,
with responses collected from both standard vision-language models (VLMs) and
advanced VLM reasoners. Second, we design a reward model architecture based on
Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage
fine-tuning using pairwise ranking loss on pairwise preference data.
Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art
results on multimodal VL-RewardBench and exhibits competitive performance on
the text-only RewardBench benchmark. Furthermore, preference data constructed
based on our Skywork-VL Reward proves highly effective for training Mixed
Preference Optimization (MPO), leading to significant improvements in
multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as
a significant advancement toward general-purpose, reliable reward models for
multimodal alignment. Our model has been publicly released to promote
transparency and reproducibility.Summary
AI-Generated Summary