ChatPaper.aiChatPaper

Multimodal RewardBench: Avaliação Holística de Modelos de Recompensa para Modelos de Linguagem e Visão

Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

February 20, 2025
Autores: Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI

Resumo

Modelos de recompensa desempenham um papel essencial no treinamento de modelos de visão e linguagem (VLMs) ao avaliar a qualidade das saídas para permitir o alinhamento com as preferências humanas. Apesar de sua importância, a comunidade de pesquisa carece de benchmarks abertos e abrangentes para avaliar modelos de recompensa multimodal em VLMs. Para preencher essa lacuna, introduzimos o Multimodal RewardBench, um benchmark anotado por especialistas que abrange seis domínios: correção geral, preferência, conhecimento, raciocínio, segurança e resposta a perguntas visuais. Nosso conjunto de dados compreende 5.211 triplas anotadas (prompt, resposta escolhida, resposta rejeitada) coletadas de vários VLMs. Ao avaliar uma variedade de juízes VLM, descobrimos que mesmo os modelos de melhor desempenho, Gemini 1.5 Pro e Claude 3.5 Sonnet, atingem apenas 72% de precisão geral. Notavelmente, a maioria dos modelos enfrenta dificuldades nos domínios de raciocínio e segurança. Esses achados sugerem que o Multimodal RewardBench oferece um ambiente desafiador para o avanço do desenvolvimento de modelos de recompensa em múltiplos domínios. Disponibilizamos o benchmark em https://github.com/facebookresearch/multimodal_rewardbench.
English
Reward models play an essential role in training vision-language models (VLMs) by assessing output quality to enable aligning with human preferences. Despite their importance, the research community lacks comprehensive open benchmarks for evaluating multimodal reward models in VLMs. To address this gap, we introduce Multimodal RewardBench, an expert-annotated benchmark covering six domains: general correctness, preference, knowledge, reasoning, safety, and visual question-answering. Our dataset comprises 5,211 annotated (prompt, chosen response, rejected response) triplets collected from various VLMs. In evaluating a range of VLM judges, we find that even the top-performing models, Gemini 1.5 Pro and Claude 3.5 Sonnet, achieve only 72% overall accuracy. Notably, most models struggle in the reasoning and safety domains. These findings suggest that Multimodal RewardBench offers a challenging testbed for advancing reward model development across multiple domains. We release the benchmark at https://github.com/facebookresearch/multimodal_rewardbench.

Summary

AI-Generated Summary

PDF72February 21, 2025