Skywork-VL Reward:マルチモーダル理解と推論のための効果的な報酬モデル
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
May 12, 2025
著者: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
要旨
我々は、マルチモーダル理解と推論タスクの両方に対して報酬信号を提供するマルチモーダル報酬モデル「Skywork-VL Reward」を提案する。技術的アプローチは2つの主要なコンポーネントから構成される。第一に、幅広いタスクとシナリオをカバーする大規模なマルチモーダル選好データセットを構築し、標準的な視覚言語モデル(VLM)と高度なVLM推論モデルからの応答を収集した。第二に、Qwen2.5-VL-7B-Instructを基盤とした報酬モデルアーキテクチャを設計し、報酬ヘッドを統合し、ペアワイズ選好データに対してペアワイズランキング損失を用いた多段階のファインチューニングを適用した。実験的評価により、Skywork-VL RewardはマルチモーダルVL-RewardBenchにおいて最先端の結果を達成し、テキストのみのRewardBenchベンチマークでも競争力のある性能を示すことが確認された。さらに、Skywork-VL Rewardに基づいて構築された選好データは、Mixed Preference Optimization(MPO)のトレーニングに極めて有効であり、マルチモーダル推論能力の大幅な向上をもたらすことが示された。我々の結果は、Skywork-VL Rewardがマルチモーダルアラインメントのための汎用的で信頼性の高い報酬モデルに向けた重要な進展であることを強調する。透明性と再現性を促進するため、本モデルは公開されている。
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward
signals for both multimodal understanding and reasoning tasks. Our technical
approach comprises two key components: First, we construct a large-scale
multimodal preference dataset that covers a wide range of tasks and scenarios,
with responses collected from both standard vision-language models (VLMs) and
advanced VLM reasoners. Second, we design a reward model architecture based on
Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage
fine-tuning using pairwise ranking loss on pairwise preference data.
Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art
results on multimodal VL-RewardBench and exhibits competitive performance on
the text-only RewardBench benchmark. Furthermore, preference data constructed
based on our Skywork-VL Reward proves highly effective for training Mixed
Preference Optimization (MPO), leading to significant improvements in
multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as
a significant advancement toward general-purpose, reliable reward models for
multimodal alignment. Our model has been publicly released to promote
transparency and reproducibility.Summary
AI-Generated Summary