ChatPaper.aiChatPaper

MJ-Bench: Is Jouw Multimodale Beloningsmodel Werkelijk een Goede Beoordelaar voor Tekst-naar-Beeld Generatie?

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

July 5, 2024
Auteurs: Zhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao
cs.AI

Samenvatting

Hoewel tekst-naar-beeldmodellen zoals DALLE-3 en Stable Diffusion zich snel verspreiden, stuiten ze vaak op uitdagingen zoals hallucinatie, bias en het produceren van onveilige, laagkwalitatieve output. Om deze problemen effectief aan te pakken, is het cruciaal om deze modellen af te stemmen op gewenst gedrag op basis van feedback van een multimodale beoordelaar. Ondanks hun belang, worden huidige multimodale beoordelaars vaak onvoldoende geëvalueerd op hun capaciteiten en beperkingen, wat mogelijk kan leiden tot misalignering en onveilige fine-tuningresultaten. Om dit probleem aan te pakken, introduceren we MJ-Bench, een nieuwe benchmark die een uitgebreide voorkeursdataset bevat om multimodale beoordelaars te evalueren in het geven van feedback voor beeldgeneratiemodellen vanuit vier belangrijke perspectieven: alignering, veiligheid, beeldkwaliteit en bias. Specifiek evalueren we een grote verscheidenheid aan multimodale beoordelaars, waaronder kleinere CLIP-gebaseerde scoringsmodellen, open-source VLMs (bijv. LLaVA-familie) en closed-source VLMs (bijv. GPT-4o, Claude 3) op elk gedetailleerde subcategorie van onze voorkeursdataset. Experimenten tonen aan dat closed-source VLMs over het algemeen betere feedback geven, waarbij GPT-4o gemiddeld beter presteert dan andere beoordelaars. Vergeleken met open-source VLMs kunnen kleinere scoringsmodellen betere feedback geven wat betreft tekst-beeldalignering en beeldkwaliteit, terwijl VLMs nauwkeurigere feedback geven wat betreft veiligheid en generatiebias vanwege hun sterkere redeneervermogen. Verdere studies naar feedbackschaal tonen aan dat VLM-beoordelaars over het algemeen nauwkeurigere en stabielere feedback kunnen geven in natuurlijke taal (Likert-schaal) dan in numerieke schalen. Opmerkelijk is dat menselijke evaluaties van end-to-end fine-tuned modellen met aparte feedback van deze multimodale beoordelaars vergelijkbare conclusies opleveren, wat de effectiviteit van MJ-Bench verder bevestigt. Alle data, code en modellen zijn beschikbaar op https://huggingface.co/MJ-Bench.
English
While text-to-image models like DALLE-3 and Stable Diffusion are rapidly proliferating, they often encounter challenges such as hallucination, bias, and the production of unsafe, low-quality output. To effectively address these issues, it is crucial to align these models with desired behaviors based on feedback from a multimodal judge. Despite their significance, current multimodal judges frequently undergo inadequate evaluation of their capabilities and limitations, potentially leading to misalignment and unsafe fine-tuning outcomes. To address this issue, we introduce MJ-Bench, a novel benchmark which incorporates a comprehensive preference dataset to evaluate multimodal judges in providing feedback for image generation models across four key perspectives: alignment, safety, image quality, and bias. Specifically, we evaluate a large variety of multimodal judges including smaller-sized CLIP-based scoring models, open-source VLMs (e.g. LLaVA family), and close-source VLMs (e.g. GPT-4o, Claude 3) on each decomposed subcategory of our preference dataset. Experiments reveal that close-source VLMs generally provide better feedback, with GPT-4o outperforming other judges in average. Compared with open-source VLMs, smaller-sized scoring models can provide better feedback regarding text-image alignment and image quality, while VLMs provide more accurate feedback regarding safety and generation bias due to their stronger reasoning capabilities. Further studies in feedback scale reveal that VLM judges can generally provide more accurate and stable feedback in natural language (Likert-scale) than numerical scales. Notably, human evaluations on end-to-end fine-tuned models using separate feedback from these multimodal judges provide similar conclusions, further confirming the effectiveness of MJ-Bench. All data, code, models are available at https://huggingface.co/MJ-Bench.
PDF565November 28, 2024