Rivalutazione della valutazione testo-immagine con Gecko: su metriche, prompt e valutazioni umane
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings
April 25, 2024
Autori: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI
Abstract
Sebbene i modelli generativi testo-immagine (T2I) siano diventati onnipresenti, non sempre generano immagini che si allineano a un prompt dato. Mentre lavori precedenti hanno valutato l'allineamento T2I proponendo metriche, benchmark e modelli per raccogliere giudizi umani, la qualità di questi componenti non è stata misurata sistematicamente. Gli insiemi di prompt valutati dagli esseri umani sono generalmente piccoli e l'affidabilità delle valutazioni — e quindi dell'insieme di prompt utilizzato per confrontare i modelli — non viene valutata. Colmiamo questa lacuna conducendo uno studio approfondito che valuta le metriche di auto-valutazione e i modelli umani. Forniamo tre contributi principali: (1) Introduciamo un benchmark completo basato su competenze che può discriminare i modelli attraverso diversi modelli umani. Questo benchmark basato su competenze categorizza i prompt in sotto-competenze, consentendo a un praticante di identificare non solo quali competenze sono impegnative, ma anche a quale livello di complessità una competenza diventa impegnativa. (2) Raccogliamo valutazioni umane su quattro modelli e quattro modelli T2I per un totale di >100K annotazioni. Questo ci permette di capire dove le differenze sorgono a causa dell'ambiguità intrinseca nel prompt e dove sorgono a causa di differenze nella qualità della metrica e del modello. (3) Infine, introduciamo una nuova metrica di auto-valutazione basata su domande e risposte che è maggiormente correlata con le valutazioni umane rispetto alle metriche esistenti per il nostro nuovo dataset, attraverso diversi modelli umani, e su TIFA160.
English
While text-to-image (T2I) generative models have become ubiquitous, they do
not necessarily generate images that align with a given prompt. While previous
work has evaluated T2I alignment by proposing metrics, benchmarks, and
templates for collecting human judgements, the quality of these components is
not systematically measured. Human-rated prompt sets are generally small and
the reliability of the ratings -- and thereby the prompt set used to compare
models -- is not evaluated. We address this gap by performing an extensive
study evaluating auto-eval metrics and human templates. We provide three main
contributions: (1) We introduce a comprehensive skills-based benchmark that can
discriminate models across different human templates. This skills-based
benchmark categorises prompts into sub-skills, allowing a practitioner to
pinpoint not only which skills are challenging, but at what level of complexity
a skill becomes challenging. (2) We gather human ratings across four templates
and four T2I models for a total of >100K annotations. This allows us to
understand where differences arise due to inherent ambiguity in the prompt and
where they arise due to differences in metric and model quality. (3) Finally,
we introduce a new QA-based auto-eval metric that is better correlated with
human ratings than existing metrics for our new dataset, across different human
templates, and on TIFA160.