MJ-Bench: Ist Ihr multimodales Belohnungsmodell wirklich ein guter Richter für die Generierung von Text-zu-Bild?MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for
Text-to-Image Generation?
Während Text-zu-Bild-Modelle wie DALLE-3 und Stable Diffusion sich schnell verbreiten, stoßen sie oft auf Herausforderungen wie Halluzinationen, Voreingenommenheit und die Erzeugung unsicherer, minderwertiger Ausgaben. Um diese Probleme effektiv anzugehen, ist es entscheidend, diese Modelle mit gewünschten Verhaltensweisen abzustimmen, basierend auf Rückmeldungen eines multimodalen Richters. Trotz ihrer Bedeutung werden aktuelle multimodale Richter häufig unzureichend auf ihre Fähigkeiten und Grenzen evaluiert, was potenziell zu Missabstimmungen und unsicheren Feinabstimmungsergebnissen führen kann. Um dieses Problem zu lösen, stellen wir MJ-Bench vor, einen neuartigen Benchmark, der einen umfassenden Präferenzdatensatz integriert, um multimodale Richter in der Bereitstellung von Rückmeldungen für Bildgenerierungsmodelle aus vier Schlüsselperspektiven zu bewerten: Abstimmung, Sicherheit, Bildqualität und Voreingenommenheit. Speziell bewerten wir eine Vielzahl von multimodalen Richtern, darunter kleinere CLIP-basierte Bewertungsmodelle, Open-Source VLMs (z.B. LLaVA-Familie) und Closed-Source VLMs (z.B. GPT-4o, Claude 3) in jeder zerlegten Unterkategorie unseres Präferenzdatensatzes. Experimente zeigen, dass Closed-Source VLMs im Allgemeinen bessere Rückmeldungen liefern, wobei GPT-4o im Durchschnitt andere Richter übertrifft. Im Vergleich zu Open-Source VLMs können kleinere Bewertungsmodelle bessere Rückmeldungen bezüglich Text-Bild-Abstimmung und Bildqualität liefern, während VLMs aufgrund ihrer stärkeren Argumentationsfähigkeiten genauere Rückmeldungen bezüglich Sicherheit und Generierungsvoreingenommenheit bieten. Weitere Studien zur Rückmeldungs-Skala zeigen, dass VLM-Richter im Allgemeinen genauere und stabilere Rückmeldungen in natürlicher Sprache (Likert-Skala) als numerische Skalen liefern können. Bemerkenswert ist, dass menschliche Bewertungen an end-to-end feinabgestimmten Modellen unter Verwendung separater Rückmeldungen dieser multimodalen Richter zu ähnlichen Schlussfolgerungen kommen, was die Wirksamkeit von MJ-Bench weiter bestätigt. Alle Daten, Codes und Modelle sind unter https://huggingface.co/MJ-Bench verfügbar.