ChatPaper.aiChatPaper

Neubewertung der Text-zu-Bild-Bewertung mit Gecko: Über Metriken, Aufforderungen und menschliche Bewertungen

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

April 25, 2024
Autoren: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI

Zusammenfassung

Obwohl textbasierte Bildgenerierungsmodelle (T2I) weit verbreitet sind, erzeugen sie nicht unbedingt Bilder, die mit einer bestimmten Vorgabe übereinstimmen. Frühere Arbeiten haben die Übereinstimmung von T2I anhand von Metriken, Benchmarks und Vorlagen zur Sammlung menschlicher Bewertungen bewertet, jedoch wird die Qualität dieser Komponenten nicht systematisch gemessen. Menschlich bewertete Vorgabesets sind in der Regel klein und die Zuverlässigkeit der Bewertungen – und somit des verwendeten Vorgabesets zur Vergleich von Modellen – wird nicht bewertet. Wir schließen diese Lücke, indem wir eine umfassende Studie durchführen, die Auto-Evaluierungsmetriken und menschliche Vorlagen bewertet. Wir leisten drei Hauptbeiträge: (1) Wir stellen einen umfassenden fähigkeitenbasierten Benchmark vor, der Modelle über verschiedene menschliche Vorlagen hinweg unterscheiden kann. Dieser fähigkeitenbasierte Benchmark kategorisiert Vorgaben in Teilaufgaben, was einem Praktiker ermöglicht, nicht nur herauszufinden, welche Fähigkeiten herausfordernd sind, sondern auf welchem Komplexitätsniveau eine Fähigkeit herausfordernd wird. (2) Wir sammeln menschliche Bewertungen über vier Vorlagen und vier T2I-Modelle für insgesamt >100K Annotationen. Dies ermöglicht es uns zu verstehen, wo Unterschiede aufgrund inhärenter Mehrdeutigkeiten in der Vorgabe entstehen und wo sie aufgrund von Unterschieden in Metrik- und Modellqualität entstehen. (3) Schließlich stellen wir eine neue QA-basierte Auto-Evaluierungsmetrik vor, die für unseren neuen Datensatz besser mit menschlichen Bewertungen korreliert als bestehende Metriken, über verschiedene menschliche Vorlagen hinweg und auf TIFA160.
English
While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings -- and thereby the prompt set used to compare models -- is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.

Summary

AI-Generated Summary

PDF172December 15, 2024