ChatPaper.aiChatPaper

Multimodal RewardBench: Evaluación Integral de Modelos de Recompensa para Modelos de Lenguaje y Visión

Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

February 20, 2025
Autores: Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI

Resumen

Los modelos de recompensa desempeñan un papel esencial en el entrenamiento de modelos de visión y lenguaje (VLMs) al evaluar la calidad de las salidas para permitir la alineación con las preferencias humanas. A pesar de su importancia, la comunidad investigadora carece de puntos de referencia abiertos y exhaustivos para evaluar modelos de recompensa multimodal en VLMs. Para abordar esta brecha, presentamos Multimodal RewardBench, un punto de referencia anotado por expertos que abarca seis dominios: corrección general, preferencia, conocimiento, razonamiento, seguridad y respuesta a preguntas visuales. Nuestro conjunto de datos comprende 5.211 tripletas anotadas (prompt, respuesta elegida, respuesta rechazada) recopiladas de varios VLMs. Al evaluar una gama de jueces VLM, encontramos que incluso los modelos con mejor rendimiento, Gemini 1.5 Pro y Claude 3.5 Sonnet, alcanzan solo un 72% de precisión general. Es notable que la mayoría de los modelos tienen dificultades en los dominios de razonamiento y seguridad. Estos hallazgos sugieren que Multimodal RewardBench ofrece un banco de pruebas desafiante para avanzar en el desarrollo de modelos de recompensa en múltiples dominios. Publicamos el punto de referencia en https://github.com/facebookresearch/multimodal_rewardbench.
English
Reward models play an essential role in training vision-language models (VLMs) by assessing output quality to enable aligning with human preferences. Despite their importance, the research community lacks comprehensive open benchmarks for evaluating multimodal reward models in VLMs. To address this gap, we introduce Multimodal RewardBench, an expert-annotated benchmark covering six domains: general correctness, preference, knowledge, reasoning, safety, and visual question-answering. Our dataset comprises 5,211 annotated (prompt, chosen response, rejected response) triplets collected from various VLMs. In evaluating a range of VLM judges, we find that even the top-performing models, Gemini 1.5 Pro and Claude 3.5 Sonnet, achieve only 72% overall accuracy. Notably, most models struggle in the reasoning and safety domains. These findings suggest that Multimodal RewardBench offers a challenging testbed for advancing reward model development across multiple domains. We release the benchmark at https://github.com/facebookresearch/multimodal_rewardbench.

Summary

AI-Generated Summary

PDF72February 21, 2025