VLRewardBench : un benchmark exigeant pour les modèles de récompense générative vision-langage
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
November 26, 2024
Auteurs: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI
Résumé
Les modèles de récompense générative vision-langage (VL-GenRMs) jouent un rôle crucial dans l'alignement et l'évaluation des systèmes d'IA multimodaux, mais leur propre évaluation reste peu explorée. Les méthodes d'évaluation actuelles reposent principalement sur des étiquettes de préférence annotées par l'IA à partir de tâches VL traditionnelles, ce qui peut introduire des biais et souvent ne parvient pas à remettre efficacement en question les modèles de pointe. Pour remédier à ces limitations, nous introduisons VL-RewardBench, un banc d'essai complet couvrant des requêtes multimodales générales, la détection d'hallucinations visuelles et des tâches de raisonnement complexes. Grâce à notre pipeline d'annotation assisté par l'IA combinant la sélection d'échantillons avec la vérification humaine, nous avons sélectionné avec soin 1 250 exemples de haute qualité spécifiquement conçus pour sonder les limitations des modèles. Une évaluation complète sur 16 des principaux grands modèles vision-langage démontre l'efficacité de VL-RewardBench en tant que banc d'essai exigeant, où même GPT-4o n'atteint qu'une précision de 65,4 %, et où des modèles open-source de pointe tels que Qwen2-VL-72B peinent à dépasser le hasard. De manière importante, les performances sur VL-RewardBench sont fortement corrélées (r de Pearson > 0,9) avec l'exactitude de MMMU-Pro en utilisant l'échantillonnage Best-of-N avec les VL-GenRMs. Des expériences d'analyse révèlent trois insights critiques pour améliorer les VL-GenRMs : (i) les modèles échouent principalement dans les tâches de perception visuelle de base plutôt que dans les tâches de raisonnement ; (ii) les avantages de l'adaptation à l'échelle au moment de l'inférence varient considérablement en fonction de la capacité du modèle ; et (iii) former les VL-GenRMs à apprendre à juger renforce considérablement la capacité de jugement (+14,7 % de précision pour un VL-GenRM 7B). Nous pensons que VL-RewardBench, associé aux insights expérimentaux, deviendra une ressource précieuse pour faire progresser les VL-GenRMs.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in
aligning and evaluating multimodal AI systems, yet their own evaluation remains
under-explored. Current assessment methods primarily rely on AI-annotated
preference labels from traditional VL tasks, which can introduce biases and
often fail to effectively challenge state-of-the-art models. To address these
limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning
general multimodal queries, visual hallucination detection, and complex
reasoning tasks. Through our AI-assisted annotation pipeline combining sample
selection with human verification, we curate 1,250 high-quality examples
specifically designed to probe model limitations. Comprehensive evaluation
across 16 leading large vision-language models, demonstrates VL-RewardBench's
effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4%
accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B,
struggle to surpass random-guessing. Importantly, performance on VL-RewardBench
strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N
sampling with VL-GenRMs. Analysis experiments uncover three critical insights
for improving VL-GenRMs: (i) models predominantly fail at basic visual
perception tasks rather than reasoning tasks; (ii) inference-time scaling
benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to
learn to judge substantially boosts judgment capability (+14.7% accuracy for a
7B VL-GenRM). We believe VL-RewardBench along with the experimental insights
will become a valuable resource for advancing VL-GenRMs.Summary
AI-Generated Summary