ChatPaper.aiChatPaper

Skywork-VL Reward: 다중 모달 이해와 추론을 위한 효과적인 보상 모델

Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025
저자: Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

초록

우리는 다중모달 이해 및 추론 과제 모두에 대해 보상 신호를 제공하는 다중모달 보상 모델인 Skywork-VL Reward를 제안한다. 우리의 기술적 접근 방식은 두 가지 핵심 구성 요소로 이루어져 있다: 첫째, 광범위한 과제와 시나리오를 포괄하는 대규모 다중모달 선호도 데이터셋을 구축하며, 이때 표준 시각-언어 모델(VLMs)과 고급 VLM 추론기로부터 응답을 수집한다. 둘째, Qwen2.5-VL-7B-Instruct를 기반으로 한 보상 모델 아키텍처를 설계하여, 보상 헤드를 통합하고 쌍별 선호도 데이터에 대해 쌍별 순위 손실을 적용한 다단계 미세 조정을 수행한다. 실험 평가 결과, Skywork-VL Reward는 다중모달 VL-RewardBench에서 최첨단 성능을 달성하며, 텍스트 전용 RewardBench 벤치마크에서도 경쟁력 있는 성능을 보인다. 또한, Skywork-VL Reward를 기반으로 구축된 선호도 데이터는 Mixed Preference Optimization(MPO) 훈련에 매우 효과적임이 입증되어, 다중모달 추론 능력에서 상당한 개선을 이끌어낸다. 우리의 결과는 Skywork-VL Reward가 다중모달 정렬을 위한 일반 목적의 신뢰할 수 있는 보상 모델로의 중요한 진전임을 강조한다. 우리 모델은 투명성과 재현성을 촉진하기 위해 공개되었다.
English
We propose Skywork-VL Reward, a multimodal reward model that provides reward signals for both multimodal understanding and reasoning tasks. Our technical approach comprises two key components: First, we construct a large-scale multimodal preference dataset that covers a wide range of tasks and scenarios, with responses collected from both standard vision-language models (VLMs) and advanced VLM reasoners. Second, we design a reward model architecture based on Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage fine-tuning using pairwise ranking loss on pairwise preference data. Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art results on multimodal VL-RewardBench and exhibits competitive performance on the text-only RewardBench benchmark. Furthermore, preference data constructed based on our Skywork-VL Reward proves highly effective for training Mixed Preference Optimization (MPO), leading to significant improvements in multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as a significant advancement toward general-purpose, reliable reward models for multimodal alignment. Our model has been publicly released to promote transparency and reproducibility.

Summary

AI-Generated Summary

PDF151May 13, 2025