Réévaluation de l'évaluation texte-image avec Gecko : sur les métriques, les prompts et les évaluations humaines
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings
April 25, 2024
Auteurs: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI
Résumé
Alors que les modèles génératifs texte-à-image (T2I) sont devenus omniprésents, ils ne génèrent pas nécessairement des images alignées avec un prompt donné. Bien que des travaux antérieurs aient évalué l'alignement des T2I en proposant des métriques, des benchmarks et des modèles pour collecter des jugements humains, la qualité de ces composants n'est pas systématiquement mesurée. Les ensembles de prompts évalués par des humains sont généralement de petite taille, et la fiabilité des évaluations — et par conséquent celle des ensembles de prompts utilisés pour comparer les modèles — n'est pas évaluée. Nous comblons cette lacune en menant une étude approfondie évaluant les métriques d'auto-évaluation et les modèles de jugements humains. Nous apportons trois contributions principales : (1) Nous introduisons un benchmark complet basé sur des compétences, capable de discriminer les modèles selon différents modèles de jugements humains. Ce benchmark basé sur les compétences catégorise les prompts en sous-compétences, permettant à un praticien d'identifier non seulement quelles compétences sont difficiles, mais aussi à quel niveau de complexité une compéquence devient difficile. (2) Nous collectons des évaluations humaines pour quatre modèles de jugements et quatre modèles T2I, totalisant plus de 100 000 annotations. Cela nous permet de comprendre où les différences surviennent en raison de l'ambiguïté inhérente au prompt et où elles surviennent en raison des différences de qualité des métriques et des modèles. (3) Enfin, nous introduisons une nouvelle métrique d'auto-évaluation basée sur des questions-réponses, mieux corrélée avec les évaluations humaines que les métriques existantes pour notre nouveau jeu de données, sur différents modèles de jugements humains, et sur TIFA160.
English
While text-to-image (T2I) generative models have become ubiquitous, they do
not necessarily generate images that align with a given prompt. While previous
work has evaluated T2I alignment by proposing metrics, benchmarks, and
templates for collecting human judgements, the quality of these components is
not systematically measured. Human-rated prompt sets are generally small and
the reliability of the ratings -- and thereby the prompt set used to compare
models -- is not evaluated. We address this gap by performing an extensive
study evaluating auto-eval metrics and human templates. We provide three main
contributions: (1) We introduce a comprehensive skills-based benchmark that can
discriminate models across different human templates. This skills-based
benchmark categorises prompts into sub-skills, allowing a practitioner to
pinpoint not only which skills are challenging, but at what level of complexity
a skill becomes challenging. (2) We gather human ratings across four templates
and four T2I models for a total of >100K annotations. This allows us to
understand where differences arise due to inherent ambiguity in the prompt and
where they arise due to differences in metric and model quality. (3) Finally,
we introduce a new QA-based auto-eval metric that is better correlated with
human ratings than existing metrics for our new dataset, across different human
templates, and on TIFA160.Summary
AI-Generated Summary