Opnieuw bekijken van tekst-naar-beeld evaluatie met Gecko: Over metrieken, prompts en menselijke beoordelingen
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings
April 25, 2024
Auteurs: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI
Samenvatting
Hoewel tekst-naar-beeld (T2I) generatieve modellen alomtegenwoordig zijn geworden, genereren ze niet noodzakelijkerwijs afbeeldingen die overeenkomen met een gegeven prompt. Hoewel eerder werk T2I-uitlijning heeft geëvalueerd door het voorstellen van metrieken, benchmarks en sjablonen voor het verzamelen van menselijke beoordelingen, is de kwaliteit van deze componenten niet systematisch gemeten. Menselijk beoordeelde promptsets zijn over het algemeen klein en de betrouwbaarheid van de beoordelingen — en daarmee de promptsets die worden gebruikt om modellen te vergelijken — is niet geëvalueerd. Wij vullen deze leemte door een uitgebreide studie uit te voeren die auto-evaluatiemetrieken en menselijke sjablonen evalueert. Wij leveren drie belangrijke bijdragen: (1) We introduceren een uitgebreide, op vaardigheden gebaseerde benchmark die modellen kan onderscheiden over verschillende menselijke sjablonen. Deze op vaardigheden gebaseerde benchmark categoriseert prompts in subvaardigheden, waardoor een beoefenaar niet alleen kan vaststellen welke vaardigheden uitdagend zijn, maar ook op welk complexiteitsniveau een vaardigheid uitdagend wordt. (2) We verzamelen menselijke beoordelingen over vier sjablonen en vier T2I-modellen voor een totaal van >100K annotaties. Dit stelt ons in staat te begrijpen waar verschillen ontstaan door inherente ambiguïteit in de prompt en waar ze ontstaan door verschillen in metriek en modelkwaliteit. (3) Tot slot introduceren we een nieuwe, op vragen-antwoorden gebaseerde auto-evaluatiemetriek die beter gecorreleerd is met menselijke beoordelingen dan bestaande metrieken voor onze nieuwe dataset, over verschillende menselijke sjablonen, en op TIFA160.
English
While text-to-image (T2I) generative models have become ubiquitous, they do
not necessarily generate images that align with a given prompt. While previous
work has evaluated T2I alignment by proposing metrics, benchmarks, and
templates for collecting human judgements, the quality of these components is
not systematically measured. Human-rated prompt sets are generally small and
the reliability of the ratings -- and thereby the prompt set used to compare
models -- is not evaluated. We address this gap by performing an extensive
study evaluating auto-eval metrics and human templates. We provide three main
contributions: (1) We introduce a comprehensive skills-based benchmark that can
discriminate models across different human templates. This skills-based
benchmark categorises prompts into sub-skills, allowing a practitioner to
pinpoint not only which skills are challenging, but at what level of complexity
a skill becomes challenging. (2) We gather human ratings across four templates
and four T2I models for a total of >100K annotations. This allows us to
understand where differences arise due to inherent ambiguity in the prompt and
where they arise due to differences in metric and model quality. (3) Finally,
we introduce a new QA-based auto-eval metric that is better correlated with
human ratings than existing metrics for our new dataset, across different human
templates, and on TIFA160.