ChatPaper.aiChatPaper

VLRewardBench : un benchmark exigeant pour les modèles de récompense générative vision-langage

VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

November 26, 2024
Auteurs: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI

Résumé

Les modèles de récompense générative vision-langage (VL-GenRMs) jouent un rôle crucial dans l'alignement et l'évaluation des systèmes d'IA multimodaux, mais leur propre évaluation reste peu explorée. Les méthodes d'évaluation actuelles reposent principalement sur des étiquettes de préférence annotées par l'IA à partir de tâches VL traditionnelles, ce qui peut introduire des biais et souvent ne parvient pas à remettre efficacement en question les modèles de pointe. Pour remédier à ces limitations, nous introduisons VL-RewardBench, un banc d'essai complet couvrant des requêtes multimodales générales, la détection d'hallucinations visuelles et des tâches de raisonnement complexes. Grâce à notre pipeline d'annotation assisté par l'IA combinant la sélection d'échantillons avec la vérification humaine, nous avons sélectionné avec soin 1 250 exemples de haute qualité spécifiquement conçus pour sonder les limitations des modèles. Une évaluation complète sur 16 des principaux grands modèles vision-langage démontre l'efficacité de VL-RewardBench en tant que banc d'essai exigeant, où même GPT-4o n'atteint qu'une précision de 65,4 %, et où des modèles open-source de pointe tels que Qwen2-VL-72B peinent à dépasser le hasard. De manière importante, les performances sur VL-RewardBench sont fortement corrélées (r de Pearson > 0,9) avec l'exactitude de MMMU-Pro en utilisant l'échantillonnage Best-of-N avec les VL-GenRMs. Des expériences d'analyse révèlent trois insights critiques pour améliorer les VL-GenRMs : (i) les modèles échouent principalement dans les tâches de perception visuelle de base plutôt que dans les tâches de raisonnement ; (ii) les avantages de l'adaptation à l'échelle au moment de l'inférence varient considérablement en fonction de la capacité du modèle ; et (iii) former les VL-GenRMs à apprendre à juger renforce considérablement la capacité de jugement (+14,7 % de précision pour un VL-GenRM 7B). Nous pensons que VL-RewardBench, associé aux insights expérimentaux, deviendra une ressource précieuse pour faire progresser les VL-GenRMs.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline combining sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe model limitations. Comprehensive evaluation across 16 leading large vision-language models, demonstrates VL-RewardBench's effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.

Summary

AI-Generated Summary

PDF112November 27, 2024