Rivalutazione della valutazione testo-immagine con Gecko: su metriche, prompt e valutazioni umane

Abstract

Sebbene i modelli generativi testo-immagine (T2I) siano diventati onnipresenti, non sempre generano immagini che si allineano a un prompt dato. Mentre lavori precedenti hanno valutato l'allineamento T2I proponendo metriche, benchmark e modelli per raccogliere giudizi umani, la qualità di questi componenti non è stata misurata sistematicamente. Gli insiemi di prompt valutati dagli esseri umani sono generalmente piccoli e l'affidabilità delle valutazioni — e quindi dell'insieme di prompt utilizzato per confrontare i modelli — non viene valutata. Colmiamo questa lacuna conducendo uno studio approfondito che valuta le metriche di auto-valutazione e i modelli umani. Forniamo tre contributi principali: (1) Introduciamo un benchmark completo basato su competenze che può discriminare i modelli attraverso diversi modelli umani. Questo benchmark basato su competenze categorizza i prompt in sotto-competenze, consentendo a un praticante di identificare non solo quali competenze sono impegnative, ma anche a quale livello di complessità una competenza diventa impegnativa. (2) Raccogliamo valutazioni umane su quattro modelli e quattro modelli T2I per un totale di >100K annotazioni. Questo ci permette di capire dove le differenze sorgono a causa dell'ambiguità intrinseca nel prompt e dove sorgono a causa di differenze nella qualità della metrica e del modello. (3) Infine, introduciamo una nuova metrica di auto-valutazione basata su domande e risposte che è maggiormente correlata con le valutazioni umane rispetto alle metriche esistenti per il nostro nuovo dataset, attraverso diversi modelli umani, e su TIFA160.

English

While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings -- and thereby the prompt set used to compare models -- is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.

Rivalutazione della valutazione testo-immagine con Gecko: su metriche, prompt e valutazioni umane

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

Abstract

Support