Skywork-VL Reward: Een Effectief Beloningsmodel voor Multimodaal Begrip en Redeneren

Samenvatting

Wij stellen Skywork-VL Reward voor, een multimodaal beloningsmodel dat beloningssignalen biedt voor zowel multimodale begrips- als redeneertaken. Onze technische aanpak bestaat uit twee belangrijke componenten: Ten eerste construeren we een grootschalige multimodale voorkeursdataset die een breed scala aan taken en scenario's omvat, met reacties verzameld van zowel standaard visie-taalmodellen (VLMs) als geavanceerde VLM-redeneerders. Ten tweede ontwerpen we een beloningsmodelarchitectuur gebaseerd op Qwen2.5-VL-7B-Instruct, waarbij we een beloningskop integreren en een meerfasige fine-tuning toepassen met behulp van paarsgewijze rangschikkingsverlies op paarsgewijze voorkeursdata. Experimentele evaluaties tonen aan dat Skywork-VL Reward state-of-the-art resultaten behaalt op de multimodale VL-RewardBench en competitieve prestaties vertoont op de tekstuele RewardBench-benchmark. Bovendien blijkt voorkeursdata die is geconstrueerd op basis van onze Skywork-VL Reward zeer effectief te zijn voor het trainen van Mixed Preference Optimization (MPO), wat leidt tot aanzienlijke verbeteringen in multimodale redeneervaardigheden. Onze resultaten onderstrepen Skywork-VL Reward als een belangrijke vooruitgang richting algemene, betrouwbare beloningsmodellen voor multimodale afstemming. Ons model is openbaar vrijgegeven om transparantie en reproduceerbaarheid te bevorderen.

English

We propose Skywork-VL Reward, a multimodal reward model that provides reward signals for both multimodal understanding and reasoning tasks. Our technical approach comprises two key components: First, we construct a large-scale multimodal preference dataset that covers a wide range of tasks and scenarios, with responses collected from both standard vision-language models (VLMs) and advanced VLM reasoners. Second, we design a reward model architecture based on Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage fine-tuning using pairwise ranking loss on pairwise preference data. Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art results on multimodal VL-RewardBench and exhibits competitive performance on the text-only RewardBench benchmark. Furthermore, preference data constructed based on our Skywork-VL Reward proves highly effective for training Mixed Preference Optimization (MPO), leading to significant improvements in multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as a significant advancement toward general-purpose, reliable reward models for multimodal alignment. Our model has been publicly released to promote transparency and reproducibility.

Skywork-VL Reward: Een Effectief Beloningsmodel voor Multimodaal Begrip en Redeneren

Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

Samenvatting

Summary

Support

Support