Multimodal RewardBench: Evaluación Integral de Modelos de Recompensa para Modelos de Lenguaje y Visión
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models
February 20, 2025
Autores: Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI
Resumen
Los modelos de recompensa desempeñan un papel esencial en el entrenamiento de modelos de visión y lenguaje (VLMs) al evaluar la calidad de las salidas para permitir la alineación con las preferencias humanas. A pesar de su importancia, la comunidad investigadora carece de puntos de referencia abiertos y exhaustivos para evaluar modelos de recompensa multimodal en VLMs. Para abordar esta brecha, presentamos Multimodal RewardBench, un punto de referencia anotado por expertos que abarca seis dominios: corrección general, preferencia, conocimiento, razonamiento, seguridad y respuesta a preguntas visuales. Nuestro conjunto de datos comprende 5.211 tripletas anotadas (prompt, respuesta elegida, respuesta rechazada) recopiladas de varios VLMs. Al evaluar una gama de jueces VLM, encontramos que incluso los modelos con mejor rendimiento, Gemini 1.5 Pro y Claude 3.5 Sonnet, alcanzan solo un 72% de precisión general. Es notable que la mayoría de los modelos tienen dificultades en los dominios de razonamiento y seguridad. Estos hallazgos sugieren que Multimodal RewardBench ofrece un banco de pruebas desafiante para avanzar en el desarrollo de modelos de recompensa en múltiples dominios. Publicamos el punto de referencia en https://github.com/facebookresearch/multimodal_rewardbench.
English
Reward models play an essential role in training vision-language models
(VLMs) by assessing output quality to enable aligning with human preferences.
Despite their importance, the research community lacks comprehensive open
benchmarks for evaluating multimodal reward models in VLMs. To address this
gap, we introduce Multimodal RewardBench, an expert-annotated benchmark
covering six domains: general correctness, preference, knowledge, reasoning,
safety, and visual question-answering. Our dataset comprises 5,211 annotated
(prompt, chosen response, rejected response) triplets collected from various
VLMs. In evaluating a range of VLM judges, we find that even the top-performing
models, Gemini 1.5 Pro and Claude 3.5 Sonnet, achieve only 72% overall
accuracy. Notably, most models struggle in the reasoning and safety domains.
These findings suggest that Multimodal RewardBench offers a challenging testbed
for advancing reward model development across multiple domains. We release the
benchmark at https://github.com/facebookresearch/multimodal_rewardbench.Summary
AI-Generated Summary