MJ-Bench : Votre modèle de récompense multimodale est-il vraiment un bon juge pour la génération de texte à image ?MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for
Text-to-Image Generation?
Alors que les modèles de génération d'images à partir de texte comme DALLE-3 et Stable Diffusion se multiplient rapidement, ils rencontrent souvent des défis tels que l'hallucination, les biais et la production de sorties de faible qualité ou potentiellement dangereuses. Pour résoudre efficacement ces problèmes, il est crucial d'aligner ces modèles sur des comportements souhaités en s'appuyant sur les retours d'un juge multimodal. Malgré leur importance, les juges multimodaux actuels font souvent l'objet d'une évaluation insuffisante de leurs capacités et limites, ce qui peut entraîner un désalignement et des résultats de fine-tuning non sécurisés. Pour remédier à cela, nous introduisons MJ-Bench, un nouveau benchmark qui intègre un ensemble de données de préférences complet pour évaluer les juges multimodaux dans leur capacité à fournir des retours pour les modèles de génération d'images selon quatre perspectives clés : l'alignement, la sécurité, la qualité de l'image et les biais. Plus précisément, nous évaluons une grande variété de juges multimodaux, incluant des modèles de scoring de petite taille basés sur CLIP, des modèles de langage visuel (VLMs) open-source (par exemple, la famille LLaVA) et des VLMs propriétaires (par exemple, GPT-4o, Claude 3) sur chaque sous-catégorie décomposée de notre ensemble de données de préférences. Les expériences révèlent que les VLMs propriétaires fournissent généralement de meilleurs retours, avec GPT-4o surpassant les autres juges en moyenne. Comparés aux VLMs open-source, les modèles de scoring de petite taille peuvent fournir de meilleurs retours concernant l'alignement texte-image et la qualité de l'image, tandis que les VLMs offrent des retours plus précis concernant la sécurité et les biais de génération grâce à leurs capacités de raisonnement plus fortes. Des études supplémentaires sur l'échelle des retours montrent que les juges VLMs peuvent généralement fournir des retours plus précis et stables en langage naturel (échelle de Likert) qu'en échelles numériques. Notamment, les évaluations humaines sur des modèles fine-tunés de bout en bout utilisant des retours séparés de ces juges multimodaux aboutissent à des conclusions similaires, confirmant davantage l'efficacité de MJ-Bench. Toutes les données, le code et les modèles sont disponibles à l'adresse https://huggingface.co/MJ-Bench.