VLRewardBench: Un desafiante banco de pruebas para modelos generativos de recompensa visión-lenguaje
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
November 26, 2024
Autores: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI
Resumen
Los modelos generativos de recompensa visión-lenguaje (VL-GenRMs) desempeñan un papel crucial en la alineación y evaluación de sistemas de IA multimodales, sin embargo, su propia evaluación sigue siendo poco explorada. Los métodos de evaluación actuales se basan principalmente en etiquetas de preferencia anotadas por IA de tareas VL tradicionales, lo cual puede introducir sesgos y a menudo no desafía de manera efectiva a los modelos de vanguardia. Para abordar estas limitaciones, presentamos VL-RewardBench, un banco de pruebas integral que abarca consultas multimodales generales, detección de alucinaciones visuales y tareas de razonamiento complejas. A través de nuestro pipeline de anotación asistido por IA que combina la selección de muestras con verificación humana, curamos 1,250 ejemplos de alta calidad diseñados específicamente para sondear las limitaciones del modelo. La evaluación exhaustiva en 16 principales modelos grandes de visión-lenguaje, demuestra la efectividad de VL-RewardBench como un banco de pruebas desafiante, donde incluso GPT-4o logra solo un 65.4% de precisión, y modelos de código abierto de vanguardia como Qwen2-VL-72B, luchan por superar el azar. Es importante destacar que el rendimiento en VL-RewardBench se correlaciona fuertemente (r de Pearson > 0.9) con la precisión de MMMU-Pro utilizando muestreo Best-of-N con VL-GenRMs. Los experimentos de análisis revelan tres ideas críticas para mejorar los VL-GenRMs: (i) los modelos fallan predominantemente en tareas básicas de percepción visual en lugar de tareas de razonamiento; (ii) los beneficios de escalar en tiempo de inferencia varían drásticamente según la capacidad del modelo; y (iii) entrenar VL-GenRMs para aprender a juzgar aumenta sustancialmente la capacidad de juicio (+14.7% de precisión para un VL-GenRM de 7B). Creemos que VL-RewardBench junto con las ideas experimentales se convertirán en un recurso valioso para avanzar en los VL-GenRMs.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in
aligning and evaluating multimodal AI systems, yet their own evaluation remains
under-explored. Current assessment methods primarily rely on AI-annotated
preference labels from traditional VL tasks, which can introduce biases and
often fail to effectively challenge state-of-the-art models. To address these
limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning
general multimodal queries, visual hallucination detection, and complex
reasoning tasks. Through our AI-assisted annotation pipeline combining sample
selection with human verification, we curate 1,250 high-quality examples
specifically designed to probe model limitations. Comprehensive evaluation
across 16 leading large vision-language models, demonstrates VL-RewardBench's
effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4%
accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B,
struggle to surpass random-guessing. Importantly, performance on VL-RewardBench
strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N
sampling with VL-GenRMs. Analysis experiments uncover three critical insights
for improving VL-GenRMs: (i) models predominantly fail at basic visual
perception tasks rather than reasoning tasks; (ii) inference-time scaling
benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to
learn to judge substantially boosts judgment capability (+14.7% accuracy for a
7B VL-GenRM). We believe VL-RewardBench along with the experimental insights
will become a valuable resource for advancing VL-GenRMs.Summary
AI-Generated Summary