VLRewardBench: Een uitdagende benchmark voor visie-taal generatieve beloningsmodellen.
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
November 26, 2024
Auteurs: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI
Samenvatting
Visie-taal generatieve beloningsmodellen (VL-GenRMs) spelen een cruciale rol bij het afstemmen en evalueren van multimodale AI-systemen, maar hun eigen evaluatie blijft onderbelicht. Huidige beoordelingsmethoden vertrouwen voornamelijk op door AI geannoteerde voorkeurslabels van traditionele VL-taken, die vooroordelen kunnen introduceren en vaak niet effectief zijn om geavanceerde modellen uit te dagen. Om deze beperkingen aan te pakken, introduceren we VL-RewardBench, een uitgebreide benchmark die algemene multimodale vragen, visuele hallucinatiedetectie en complexe redeneertaken omvat. Via ons door AI ondersteunde annotatieproces dat steekproefselectie combineert met menselijke verificatie, stellen we 1.250 hoogwaardige voorbeelden samen die specifiek zijn ontworpen om de beperkingen van modellen te onderzoeken. Een uitgebreide evaluatie over 16 toonaangevende grote visie-taalmodellen toont aan dat VL-RewardBench effectief is als uitdagend testplatform, waar zelfs GPT-4o slechts 65,4% nauwkeurigheid behaalt, en toonaangevende open-source modellen zoals Qwen2-VL-72B moeite hebben om willekeurig gokken te overtreffen. Belangrijk is dat de prestaties op VL-RewardBench sterk correleren (Pearson's r > 0,9) met MMMU-Pro nauwkeurigheid met behulp van Best-of-N sampling met VL-GenRMs. Analyse-experimenten onthullen drie kritische inzichten voor het verbeteren van VL-GenRMs: (i) modellen falen voornamelijk bij basis visuele perceptietaken in plaats van redeneertaken; (ii) de voordelen van schalen op inferentietijd variëren sterk per modelcapaciteit; en (iii) het trainen van VL-GenRMs om te leren beoordelen verbetert aanzienlijk de beoordelingscapaciteit (+14,7% nauwkeurigheid voor een 7B VL-GenRM). Wij geloven dat VL-RewardBench samen met de experimentele inzichten een waardevolle bron zal worden voor de vooruitgang van VL-GenRMs.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in
aligning and evaluating multimodal AI systems, yet their own evaluation remains
under-explored. Current assessment methods primarily rely on AI-annotated
preference labels from traditional VL tasks, which can introduce biases and
often fail to effectively challenge state-of-the-art models. To address these
limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning
general multimodal queries, visual hallucination detection, and complex
reasoning tasks. Through our AI-assisted annotation pipeline combining sample
selection with human verification, we curate 1,250 high-quality examples
specifically designed to probe model limitations. Comprehensive evaluation
across 16 leading large vision-language models, demonstrates VL-RewardBench's
effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4%
accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B,
struggle to surpass random-guessing. Importantly, performance on VL-RewardBench
strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N
sampling with VL-GenRMs. Analysis experiments uncover three critical insights
for improving VL-GenRMs: (i) models predominantly fail at basic visual
perception tasks rather than reasoning tasks; (ii) inference-time scaling
benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to
learn to judge substantially boosts judgment capability (+14.7% accuracy for a
7B VL-GenRM). We believe VL-RewardBench along with the experimental insights
will become a valuable resource for advancing VL-GenRMs.Summary
AI-Generated Summary