MJ-Bench: あなたのマルチモーダル報酬モデルは、本当にテキストから画像生成の優れた審査官なのか?MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for
Text-to-Image Generation?
DALLE-3やStable Diffusionのようなテキストから画像を生成するモデルが急速に普及する一方で、これらのモデルはしばしば幻覚、バイアス、安全でない低品質な出力といった課題に直面しています。これらの問題を効果的に解決するためには、マルチモーダルな評価者からのフィードバックに基づいて、これらのモデルを望ましい挙動に整合させることが重要です。しかし、その重要性にもかかわらず、現在のマルチモーダル評価者はその能力と限界について不十分な評価しか受けておらず、整合性の欠如や安全でないファインチューニングの結果を招く可能性があります。この問題に対処するため、我々はMJ-Benchという新しいベンチマークを導入しました。このベンチマークは、画像生成モデルに対するフィードバックを提供するマルチモーダル評価者を、整合性、安全性、画像品質、バイアスという4つの主要な観点から評価するための包括的な選好データセットを組み込んでいます。具体的には、小規模なCLIPベースのスコアリングモデル、オープンソースのVLM(例:LLaVAファミリー)、クローズドソースのVLM(例:GPT-4o、Claude 3)など、多様なマルチモーダル評価者を、選好データセットの各分解されたサブカテゴリで評価します。実験の結果、クローズドソースのVLMは一般的により良いフィードバックを提供し、GPT-4oが平均して他の評価者を上回ることが明らかになりました。オープンソースのVLMと比較して、小規模なスコアリングモデルはテキストと画像の整合性および画像品質に関してより良いフィードバックを提供する一方で、VLMはその強力な推論能力により、安全性と生成バイアスに関してより正確なフィードバックを提供します。フィードバックのスケールに関するさらなる研究では、VLM評価者は一般的に数値スケールよりも自然言語(リッカート尺度)でより正確で安定したフィードバックを提供できることが明らかになりました。特に、これらのマルチモーダル評価者からの個別のフィードバックを使用してエンドツーエンドでファインチューニングされたモデルに対する人間の評価は同様の結論を提供し、MJ-Benchの有効性をさらに確認しています。すべてのデータ、コード、モデルはhttps://huggingface.co/MJ-Benchで利用可能です。