MJ-Bench : Votre modèle de récompense multimodale est-il vraiment un bon juge pour la génération de texte à image ?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?
July 5, 2024
papers.authors: Zhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao
cs.AI
papers.abstract
Alors que les modèles de génération d'images à partir de texte comme DALLE-3 et Stable Diffusion se multiplient rapidement, ils rencontrent souvent des défis tels que l'hallucination, les biais et la production de sorties de faible qualité ou potentiellement dangereuses. Pour résoudre efficacement ces problèmes, il est crucial d'aligner ces modèles sur des comportements souhaités en s'appuyant sur les retours d'un juge multimodal. Malgré leur importance, les juges multimodaux actuels font souvent l'objet d'une évaluation insuffisante de leurs capacités et limites, ce qui peut entraîner un désalignement et des résultats de fine-tuning non sécurisés. Pour remédier à cela, nous introduisons MJ-Bench, un nouveau benchmark qui intègre un ensemble de données de préférences complet pour évaluer les juges multimodaux dans leur capacité à fournir des retours pour les modèles de génération d'images selon quatre perspectives clés : l'alignement, la sécurité, la qualité de l'image et les biais. Plus précisément, nous évaluons une grande variété de juges multimodaux, incluant des modèles de scoring de petite taille basés sur CLIP, des modèles de langage visuel (VLMs) open-source (par exemple, la famille LLaVA) et des VLMs propriétaires (par exemple, GPT-4o, Claude 3) sur chaque sous-catégorie décomposée de notre ensemble de données de préférences. Les expériences révèlent que les VLMs propriétaires fournissent généralement de meilleurs retours, avec GPT-4o surpassant les autres juges en moyenne. Comparés aux VLMs open-source, les modèles de scoring de petite taille peuvent fournir de meilleurs retours concernant l'alignement texte-image et la qualité de l'image, tandis que les VLMs offrent des retours plus précis concernant la sécurité et les biais de génération grâce à leurs capacités de raisonnement plus fortes. Des études supplémentaires sur l'échelle des retours montrent que les juges VLMs peuvent généralement fournir des retours plus précis et stables en langage naturel (échelle de Likert) qu'en échelles numériques. Notamment, les évaluations humaines sur des modèles fine-tunés de bout en bout utilisant des retours séparés de ces juges multimodaux aboutissent à des conclusions similaires, confirmant davantage l'efficacité de MJ-Bench. Toutes les données, le code et les modèles sont disponibles à l'adresse https://huggingface.co/MJ-Bench.
English
While text-to-image models like DALLE-3 and Stable Diffusion are rapidly
proliferating, they often encounter challenges such as hallucination, bias, and
the production of unsafe, low-quality output. To effectively address these
issues, it is crucial to align these models with desired behaviors based on
feedback from a multimodal judge. Despite their significance, current
multimodal judges frequently undergo inadequate evaluation of their
capabilities and limitations, potentially leading to misalignment and unsafe
fine-tuning outcomes. To address this issue, we introduce MJ-Bench, a novel
benchmark which incorporates a comprehensive preference dataset to evaluate
multimodal judges in providing feedback for image generation models across four
key perspectives: alignment, safety, image quality, and bias. Specifically, we
evaluate a large variety of multimodal judges including smaller-sized
CLIP-based scoring models, open-source VLMs (e.g. LLaVA family), and
close-source VLMs (e.g. GPT-4o, Claude 3) on each decomposed subcategory of our
preference dataset. Experiments reveal that close-source VLMs generally provide
better feedback, with GPT-4o outperforming other judges in average. Compared
with open-source VLMs, smaller-sized scoring models can provide better feedback
regarding text-image alignment and image quality, while VLMs provide more
accurate feedback regarding safety and generation bias due to their stronger
reasoning capabilities. Further studies in feedback scale reveal that VLM
judges can generally provide more accurate and stable feedback in natural
language (Likert-scale) than numerical scales. Notably, human evaluations on
end-to-end fine-tuned models using separate feedback from these multimodal
judges provide similar conclusions, further confirming the effectiveness of
MJ-Bench. All data, code, models are available at
https://huggingface.co/MJ-Bench.