MJ-Bench: Действительно ли ваш мультимодальная модель вознаграждения является хорошим судьей для генерации текста в изображение?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?
July 5, 2024
Авторы: Zhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao
cs.AI
Аннотация
Пока модели текст-в-изображение, такие как DALLE-3 и Stable Diffusion, быстро распространяются, они часто сталкиваются с вызовами, такими как галлюцинации, предвзятость и создание небезопасного, низкокачественного вывода. Для эффективного решения этих проблем критически важно согласовать эти модели с желаемыми поведенческими характеристиками на основе обратной связи от мультимодального судьи. Несмотря на их значимость, текущие мультимодальные судьи часто подвергаются недостаточной оценке своих возможностей и ограничений, что потенциально может привести к несогласованности и небезопасным результатам настройки. Для решения этой проблемы мы представляем MJ-Bench, новый бенчмарк, который включает в себя комплексный набор данных предпочтений для оценки мультимодальных судей в предоставлении обратной связи для моделей генерации изображений с четырех ключевых точек зрения: согласованность, безопасность, качество изображения и предвзятость. В частности, мы оцениваем большое разнообразие мультимодальных судей, включая модели оценки на основе CLIP меньшего размера, открытые VLM (например, семейство LLaVA) и закрытые VLM (например, GPT-4o, Claude 3) на каждой декомпозированной подкатегории нашего набора данных предпочтений. Эксперименты показывают, что закрытые VLM обычно предоставляют лучшую обратную связь, причем GPT-4o превосходит других судей в среднем. По сравнению с открытыми VLM, модели оценки меньшего размера могут предоставлять лучшую обратную связь относительно согласования текста и изображения и качества изображения, в то время как VLM могут предоставлять более точную обратную связь относительно безопасности и предвзятости генерации из-за их более сильных способностей к рассуждению. Дальнейшие исследования в масштабе обратной связи показывают, что судьи VLM обычно могут предоставлять более точную и стабильную обратную связь на естественном языке (шкала Ликерта) по сравнению с числовыми шкалами. Значительно, человеческие оценки на моделях, донастроенных от начала и до конца с использованием отдельной обратной связи от этих мультимодальных судей, приходят к подобным выводам, дополнительно подтверждая эффективность MJ-Bench. Все данные, коды, модели доступны по адресу https://huggingface.co/MJ-Bench.
English
While text-to-image models like DALLE-3 and Stable Diffusion are rapidly
proliferating, they often encounter challenges such as hallucination, bias, and
the production of unsafe, low-quality output. To effectively address these
issues, it is crucial to align these models with desired behaviors based on
feedback from a multimodal judge. Despite their significance, current
multimodal judges frequently undergo inadequate evaluation of their
capabilities and limitations, potentially leading to misalignment and unsafe
fine-tuning outcomes. To address this issue, we introduce MJ-Bench, a novel
benchmark which incorporates a comprehensive preference dataset to evaluate
multimodal judges in providing feedback for image generation models across four
key perspectives: alignment, safety, image quality, and bias. Specifically, we
evaluate a large variety of multimodal judges including smaller-sized
CLIP-based scoring models, open-source VLMs (e.g. LLaVA family), and
close-source VLMs (e.g. GPT-4o, Claude 3) on each decomposed subcategory of our
preference dataset. Experiments reveal that close-source VLMs generally provide
better feedback, with GPT-4o outperforming other judges in average. Compared
with open-source VLMs, smaller-sized scoring models can provide better feedback
regarding text-image alignment and image quality, while VLMs provide more
accurate feedback regarding safety and generation bias due to their stronger
reasoning capabilities. Further studies in feedback scale reveal that VLM
judges can generally provide more accurate and stable feedback in natural
language (Likert-scale) than numerical scales. Notably, human evaluations on
end-to-end fine-tuned models using separate feedback from these multimodal
judges provide similar conclusions, further confirming the effectiveness of
MJ-Bench. All data, code, models are available at
https://huggingface.co/MJ-Bench.Summary
AI-Generated Summary