ChatPaper.aiChatPaper

Skywork-VL Reward: Ein effektives Belohnungsmodell für multimodales Verständnis und logisches Denken

Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025
Autoren: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Zusammenfassung

Wir stellen Skywork-VL Reward vor, ein multimodales Belohnungsmodell, das Belohnungssignale sowohl für multimodale Verständnis- als auch für Reasoning-Aufgaben liefert. Unser technischer Ansatz umfasst zwei Schlüsselkomponenten: Erstens erstellen wir einen groß angelegten multimodalen Präferenzdatensatz, der eine breite Palette von Aufgaben und Szenarien abdeckt, wobei Antworten sowohl von Standard-Vision-Language-Modellen (VLMs) als auch von fortschrittlichen VLM-Reasonern gesammelt werden. Zweitens entwerfen wir eine Belohnungsmodellarchitektur basierend auf Qwen2.5-VL-7B-Instruct, die einen Belohnungskopf integriert und mehrstufiges Fine-Tuning unter Verwendung von paarweisem Ranking-Verlust auf paarweisen Präferenzdaten anwendet. Experimentelle Auswertungen zeigen, dass Skywork-VL Reward state-of-the-art Ergebnisse auf dem multimodalen VL-RewardBench erzielt und wettbewerbsfähige Leistungen auf dem textbasierten RewardBench-Benchmark zeigt. Darüber hinaus erweisen sich Präferenzdaten, die auf Basis unseres Skywork-VL Reward erstellt wurden, als äußerst effektiv für das Training von Mixed Preference Optimization (MPO), was zu signifikanten Verbesserungen in den multimodalen Reasoning-Fähigkeiten führt. Unsere Ergebnisse unterstreichen Skywork-VL Reward als einen bedeutenden Fortschritt hin zu allgemeinen, zuverlässigen Belohnungsmodellen für multimodale Ausrichtung. Unser Modell wurde öffentlich freigegeben, um Transparenz und Reproduzierbarkeit zu fördern.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward signals for both multimodal understanding and reasoning tasks. Our technical approach comprises two key components: First, we construct a large-scale multimodal preference dataset that covers a wide range of tasks and scenarios, with responses collected from both standard vision-language models (VLMs) and advanced VLM reasoners. Second, we design a reward model architecture based on Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage fine-tuning using pairwise ranking loss on pairwise preference data. Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art results on multimodal VL-RewardBench and exhibits competitive performance on the text-only RewardBench benchmark. Furthermore, preference data constructed based on our Skywork-VL Reward proves highly effective for training Mixed Preference Optimization (MPO), leading to significant improvements in multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as a significant advancement toward general-purpose, reliable reward models for multimodal alignment. Our model has been publicly released to promote transparency and reproducibility.

Summary

AI-Generated Summary

PDF151May 13, 2025