MJ-Bench: Действительно ли ваш мультимодальная модель вознаграждения является хорошим судьей для генерации текста в изображение?MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for
Text-to-Image Generation?
Пока модели текст-в-изображение, такие как DALLE-3 и Stable Diffusion, быстро распространяются, они часто сталкиваются с вызовами, такими как галлюцинации, предвзятость и создание небезопасного, низкокачественного вывода. Для эффективного решения этих проблем критически важно согласовать эти модели с желаемыми поведенческими характеристиками на основе обратной связи от мультимодального судьи. Несмотря на их значимость, текущие мультимодальные судьи часто подвергаются недостаточной оценке своих возможностей и ограничений, что потенциально может привести к несогласованности и небезопасным результатам настройки. Для решения этой проблемы мы представляем MJ-Bench, новый бенчмарк, который включает в себя комплексный набор данных предпочтений для оценки мультимодальных судей в предоставлении обратной связи для моделей генерации изображений с четырех ключевых точек зрения: согласованность, безопасность, качество изображения и предвзятость. В частности, мы оцениваем большое разнообразие мультимодальных судей, включая модели оценки на основе CLIP меньшего размера, открытые VLM (например, семейство LLaVA) и закрытые VLM (например, GPT-4o, Claude 3) на каждой декомпозированной подкатегории нашего набора данных предпочтений. Эксперименты показывают, что закрытые VLM обычно предоставляют лучшую обратную связь, причем GPT-4o превосходит других судей в среднем. По сравнению с открытыми VLM, модели оценки меньшего размера могут предоставлять лучшую обратную связь относительно согласования текста и изображения и качества изображения, в то время как VLM могут предоставлять более точную обратную связь относительно безопасности и предвзятости генерации из-за их более сильных способностей к рассуждению. Дальнейшие исследования в масштабе обратной связи показывают, что судьи VLM обычно могут предоставлять более точную и стабильную обратную связь на естественном языке (шкала Ликерта) по сравнению с числовыми шкалами. Значительно, человеческие оценки на моделях, донастроенных от начала и до конца с использованием отдельной обратной связи от этих мультимодальных судей, приходят к подобным выводам, дополнительно подтверждая эффективность MJ-Bench. Все данные, коды, модели доступны по адресу https://huggingface.co/MJ-Bench.