VLRewardBench: Ein anspruchsvoller Benchmark für vision-sprachliche generative Belohnungsmodelle
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
November 26, 2024
Autoren: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI
Zusammenfassung
Vision-Language Generative Reward Models (VL-GenRMs) spielen eine entscheidende Rolle bei der Ausrichtung und Bewertung multimodaler KI-Systeme, doch ihre eigene Bewertung bleibt weitgehend unerforscht. Aktuelle Bewertungsmethoden stützen sich hauptsächlich auf KI-annotierte Präferenzetiketten aus traditionellen VL-Aufgaben, die möglicherweise Voreingenommenheiten einführen und oft nicht in der Lage sind, modernste Modelle effektiv herauszufordern. Um diesen Einschränkungen zu begegnen, stellen wir VL-RewardBench vor, einen umfassenden Benchmark, der allgemeine multimodale Abfragen, die Erkennung visueller Halluzinationen und komplexe Denkaufgaben umfasst. Durch unsere KI-unterstützte Annotationspipeline, die Stichprobenauswahl mit menschlicher Verifizierung kombiniert, kuratieren wir 1.250 hochwertige Beispiele, die speziell entwickelt wurden, um die Modellgrenzen zu untersuchen. Eine umfassende Bewertung über 16 führende große Vision-Language-Modelle zeigt die Wirksamkeit von VL-RewardBench als anspruchsvolles Testfeld, auf dem selbst GPT-4o nur eine Genauigkeit von 65,4 % erreicht, und modernste Open-Source-Modelle wie Qwen2-VL-72B Schwierigkeiten haben, Zufallsgenerierungen zu übertreffen. Wichtig ist, dass die Leistung auf VL-RewardBench stark mit der MMMU-Pro-Genauigkeit korreliert (Pearson's r > 0,9), wenn Best-of-N-Sampling mit VL-GenRMs verwendet wird. Analyseexperimente decken drei wichtige Erkenntnisse zur Verbesserung von VL-GenRMs auf: (i) Modelle scheitern hauptsächlich an grundlegenden visuellen Wahrnehmungsaufgaben anstelle von Denkaufgaben; (ii) die Vorteile des Skalierens zur Inferenzzeit variieren dramatisch je nach Modellkapazität; und (iii) das Training von VL-GenRMs, um das Beurteilen zu erlernen, steigert die Beurteilungsfähigkeit erheblich (+14,7 % Genauigkeit für ein 7B VL-GenRM). Wir sind der Überzeugung, dass VL-RewardBench zusammen mit den experimentellen Erkenntnissen eine wertvolle Ressource für die Weiterentwicklung von VL-GenRMs darstellen wird.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in
aligning and evaluating multimodal AI systems, yet their own evaluation remains
under-explored. Current assessment methods primarily rely on AI-annotated
preference labels from traditional VL tasks, which can introduce biases and
often fail to effectively challenge state-of-the-art models. To address these
limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning
general multimodal queries, visual hallucination detection, and complex
reasoning tasks. Through our AI-assisted annotation pipeline combining sample
selection with human verification, we curate 1,250 high-quality examples
specifically designed to probe model limitations. Comprehensive evaluation
across 16 leading large vision-language models, demonstrates VL-RewardBench's
effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4%
accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B,
struggle to surpass random-guessing. Importantly, performance on VL-RewardBench
strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N
sampling with VL-GenRMs. Analysis experiments uncover three critical insights
for improving VL-GenRMs: (i) models predominantly fail at basic visual
perception tasks rather than reasoning tasks; (ii) inference-time scaling
benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to
learn to judge substantially boosts judgment capability (+14.7% accuracy for a
7B VL-GenRM). We believe VL-RewardBench along with the experimental insights
will become a valuable resource for advancing VL-GenRMs.Summary
AI-Generated Summary