ChatPaper.aiChatPaper

Skywork-VL Reward : Un modèle de récompense efficace pour la compréhension et le raisonnement multimodaux

Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025
Auteurs: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Résumé

Nous proposons Skywork-VL Reward, un modèle de récompense multimodal qui fournit des signaux de récompense pour les tâches de compréhension et de raisonnement multimodales. Notre approche technique comprend deux composants clés : Premièrement, nous construisons un ensemble de données de préférences multimodal à grande échelle qui couvre un large éventail de tâches et de scénarios, avec des réponses collectées à partir de modèles vision-langage (VLMs) standards et de raisonneurs VLM avancés. Deuxièmement, nous concevons une architecture de modèle de récompense basée sur Qwen2.5-VL-7B-Instruct, intégrant une tête de récompense et appliquant un affinage multi-étapes en utilisant une perte de classement par paires sur des données de préférences par paires. Les évaluations expérimentales montrent que Skywork-VL Reward atteint des résultats de pointe sur le benchmark multimodal VL-RewardBench et affiche des performances compétitives sur le benchmark textuel RewardBench. De plus, les données de préférences construites à partir de notre Skywork-VL Reward s'avèrent très efficaces pour l'entraînement de l'Optimisation de Préférences Mixtes (MPO), conduisant à des améliorations significatives des capacités de raisonnement multimodal. Nos résultats soulignent Skywork-VL Reward comme une avancée majeure vers des modèles de récompense généralistes et fiables pour l'alignement multimodal. Notre modèle a été rendu public pour promouvoir la transparence et la reproductibilité.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward signals for both multimodal understanding and reasoning tasks. Our technical approach comprises two key components: First, we construct a large-scale multimodal preference dataset that covers a wide range of tasks and scenarios, with responses collected from both standard vision-language models (VLMs) and advanced VLM reasoners. Second, we design a reward model architecture based on Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage fine-tuning using pairwise ranking loss on pairwise preference data. Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art results on multimodal VL-RewardBench and exhibits competitive performance on the text-only RewardBench benchmark. Furthermore, preference data constructed based on our Skywork-VL Reward proves highly effective for training Mixed Preference Optimization (MPO), leading to significant improvements in multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as a significant advancement toward general-purpose, reliable reward models for multimodal alignment. Our model has been publicly released to promote transparency and reproducibility.

Summary

AI-Generated Summary

PDF151May 13, 2025