Skywork-VL Reward: Эффективная модель вознаграждения для многомодального понимания и рассуждений
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
May 12, 2025
Авторы: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Аннотация
Мы представляем Skywork-VL Reward — многомодальную модель вознаграждения, которая предоставляет сигналы вознаграждения как для задач многомодального понимания, так и для задач рассуждения. Наш технический подход включает два ключевых компонента: во-первых, мы создаем крупномасштабный набор данных о предпочтениях, охватывающий широкий спектр задач и сценариев, с ответами, собранными как от стандартных моделей визуально-языкового взаимодействия (VLMs), так и от продвинутых моделей-рассуждателей. Во-вторых, мы разрабатываем архитектуру модели вознаграждения на основе Qwen2.5-VL-7B-Instruct, интегрируя голову вознаграждения и применяя многоэтапную тонкую настройку с использованием функции потерь на основе парного ранжирования для данных о парных предпочтениях. Экспериментальные оценки показывают, что Skywork-VL Reward достигает передовых результатов на многомодальном бенчмарке VL-RewardBench и демонстрирует конкурентоспособную производительность на текстовом бенчмарке RewardBench. Кроме того, данные о предпочтениях, построенные на основе Skywork-VL Reward, оказываются высокоэффективными для обучения метода Mixed Preference Optimization (MPO), что приводит к значительному улучшению многомодальных способностей рассуждения. Наши результаты подчеркивают, что Skywork-VL Reward представляет собой значительный шаг вперед в создании универсальных и надежных моделей вознаграждения для многомодального согласования. Наша модель была публично выпущена для обеспечения прозрачности и воспроизводимости.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward
signals for both multimodal understanding and reasoning tasks. Our technical
approach comprises two key components: First, we construct a large-scale
multimodal preference dataset that covers a wide range of tasks and scenarios,
with responses collected from both standard vision-language models (VLMs) and
advanced VLM reasoners. Second, we design a reward model architecture based on
Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage
fine-tuning using pairwise ranking loss on pairwise preference data.
Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art
results on multimodal VL-RewardBench and exhibits competitive performance on
the text-only RewardBench benchmark. Furthermore, preference data constructed
based on our Skywork-VL Reward proves highly effective for training Mixed
Preference Optimization (MPO), leading to significant improvements in
multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as
a significant advancement toward general-purpose, reliable reward models for
multimodal alignment. Our model has been publicly released to promote
transparency and reproducibility.Summary
AI-Generated Summary