VLRewardBench: Um Desafio de Referência para Modelos Generativos de Recompensa Visão-Linguagem
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
November 26, 2024
Autores: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI
Resumo
Os modelos generativos de recompensa visão-linguagem (VL-GenRMs) desempenham um papel crucial na alinhamento e avaliação de sistemas de IA multimodais, no entanto, a sua própria avaliação permanece pouco explorada. Os métodos de avaliação atuais dependem principalmente de rótulos de preferência anotados por IA a partir de tarefas tradicionais de VL, o que pode introduzir viéses e frequentemente falha em desafiar efetivamente modelos de ponta. Para lidar com essas limitações, apresentamos o VL-RewardBench, um benchmark abrangente que abrange consultas multimodais gerais, detecção de alucinação visual e tarefas de raciocínio complexas. Através do nosso pipeline de anotação assistida por IA combinando seleção de amostras com verificação humana, curamos 1.250 exemplos de alta qualidade especificamente projetados para sondar as limitações do modelo. A avaliação abrangente em 16 dos principais modelos de visão-linguagem de grande porte, demonstra a eficácia do VL-RewardBench como um campo de testes desafiador, onde mesmo o GPT-4o alcança apenas 65,4% de precisão, e modelos de código aberto de ponta como Qwen2-VL-72B, lutam para superar o palpite aleatório. Importante ressaltar que o desempenho no VL-RewardBench correlaciona fortemente (r de Pearson > 0,9) com a precisão do MMMU-Pro usando a amostragem Best-of-N com VL-GenRMs. Experimentos de análise revelam três insights críticos para melhorar os VL-GenRMs: (i) os modelos falham predominantemente em tarefas básicas de percepção visual em vez de tarefas de raciocínio; (ii) os benefícios de escalonamento no tempo de inferência variam dramaticamente de acordo com a capacidade do modelo; e (iii) treinar VL-GenRMs para aprender a julgar substancialmente impulsiona a capacidade de julgamento (+14,7% de precisão para um VL-GenRM de 7B). Acreditamos que o VL-RewardBench juntamente com as percepções experimentais se tornarão um recurso valioso para o avanço dos VL-GenRMs.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in
aligning and evaluating multimodal AI systems, yet their own evaluation remains
under-explored. Current assessment methods primarily rely on AI-annotated
preference labels from traditional VL tasks, which can introduce biases and
often fail to effectively challenge state-of-the-art models. To address these
limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning
general multimodal queries, visual hallucination detection, and complex
reasoning tasks. Through our AI-assisted annotation pipeline combining sample
selection with human verification, we curate 1,250 high-quality examples
specifically designed to probe model limitations. Comprehensive evaluation
across 16 leading large vision-language models, demonstrates VL-RewardBench's
effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4%
accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B,
struggle to surpass random-guessing. Importantly, performance on VL-RewardBench
strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N
sampling with VL-GenRMs. Analysis experiments uncover three critical insights
for improving VL-GenRMs: (i) models predominantly fail at basic visual
perception tasks rather than reasoning tasks; (ii) inference-time scaling
benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to
learn to judge substantially boosts judgment capability (+14.7% accuracy for a
7B VL-GenRM). We believe VL-RewardBench along with the experimental insights
will become a valuable resource for advancing VL-GenRMs.Summary
AI-Generated Summary