MJ-Bench: あなたのマルチモーダル報酬モデルは、本当にテキストから画像生成の優れた審査官なのか?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?
July 5, 2024
著者: Zhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao
cs.AI
要旨
DALLE-3やStable Diffusionのようなテキストから画像を生成するモデルが急速に普及する一方で、これらのモデルはしばしば幻覚、バイアス、安全でない低品質な出力といった課題に直面しています。これらの問題を効果的に解決するためには、マルチモーダルな評価者からのフィードバックに基づいて、これらのモデルを望ましい挙動に整合させることが重要です。しかし、その重要性にもかかわらず、現在のマルチモーダル評価者はその能力と限界について不十分な評価しか受けておらず、整合性の欠如や安全でないファインチューニングの結果を招く可能性があります。この問題に対処するため、我々はMJ-Benchという新しいベンチマークを導入しました。このベンチマークは、画像生成モデルに対するフィードバックを提供するマルチモーダル評価者を、整合性、安全性、画像品質、バイアスという4つの主要な観点から評価するための包括的な選好データセットを組み込んでいます。具体的には、小規模なCLIPベースのスコアリングモデル、オープンソースのVLM(例:LLaVAファミリー)、クローズドソースのVLM(例:GPT-4o、Claude 3)など、多様なマルチモーダル評価者を、選好データセットの各分解されたサブカテゴリで評価します。実験の結果、クローズドソースのVLMは一般的により良いフィードバックを提供し、GPT-4oが平均して他の評価者を上回ることが明らかになりました。オープンソースのVLMと比較して、小規模なスコアリングモデルはテキストと画像の整合性および画像品質に関してより良いフィードバックを提供する一方で、VLMはその強力な推論能力により、安全性と生成バイアスに関してより正確なフィードバックを提供します。フィードバックのスケールに関するさらなる研究では、VLM評価者は一般的に数値スケールよりも自然言語(リッカート尺度)でより正確で安定したフィードバックを提供できることが明らかになりました。特に、これらのマルチモーダル評価者からの個別のフィードバックを使用してエンドツーエンドでファインチューニングされたモデルに対する人間の評価は同様の結論を提供し、MJ-Benchの有効性をさらに確認しています。すべてのデータ、コード、モデルはhttps://huggingface.co/MJ-Benchで利用可能です。
English
While text-to-image models like DALLE-3 and Stable Diffusion are rapidly
proliferating, they often encounter challenges such as hallucination, bias, and
the production of unsafe, low-quality output. To effectively address these
issues, it is crucial to align these models with desired behaviors based on
feedback from a multimodal judge. Despite their significance, current
multimodal judges frequently undergo inadequate evaluation of their
capabilities and limitations, potentially leading to misalignment and unsafe
fine-tuning outcomes. To address this issue, we introduce MJ-Bench, a novel
benchmark which incorporates a comprehensive preference dataset to evaluate
multimodal judges in providing feedback for image generation models across four
key perspectives: alignment, safety, image quality, and bias. Specifically, we
evaluate a large variety of multimodal judges including smaller-sized
CLIP-based scoring models, open-source VLMs (e.g. LLaVA family), and
close-source VLMs (e.g. GPT-4o, Claude 3) on each decomposed subcategory of our
preference dataset. Experiments reveal that close-source VLMs generally provide
better feedback, with GPT-4o outperforming other judges in average. Compared
with open-source VLMs, smaller-sized scoring models can provide better feedback
regarding text-image alignment and image quality, while VLMs provide more
accurate feedback regarding safety and generation bias due to their stronger
reasoning capabilities. Further studies in feedback scale reveal that VLM
judges can generally provide more accurate and stable feedback in natural
language (Likert-scale) than numerical scales. Notably, human evaluations on
end-to-end fine-tuned models using separate feedback from these multimodal
judges provide similar conclusions, further confirming the effectiveness of
MJ-Bench. All data, code, models are available at
https://huggingface.co/MJ-Bench.Summary
AI-Generated Summary