Пересмотр оценки текста в изображение с помощью Gecko: о метриках, подсказках и оценках людей
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings
April 25, 2024
Авторы: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI
Аннотация
Хотя генеративные модели текст-в-изображение (T2I) стали повсеместными, они не обязательно создают изображения, соответствующие заданному запросу. Предыдущие исследования оценивали соответствие T2I запросу, предлагая метрики, стандарты и шаблоны для сбора оценок людей, однако качество этих компонентов не систематически измерялось. Наборы запросов, оцененные людьми, обычно небольшие, и надежность оценок - а следовательно, используемого набора запросов для сравнения моделей - не оценивается. Мы заполняем этот пробел, проводя обширное исследование, оценивающее авто-оценочные метрики и шаблоны людей. Мы делаем три основных вклада: (1) Мы представляем комплексный бенчмарк на основе навыков, который может различать модели по разным шаблонам людей. Этот бенчмарк на основе навыков категоризирует запросы по поднавыкам, позволяя практикующему точно определить, какие навыки вызывают трудности, и на каком уровне сложности навык становится вызывающим трудности. (2) Мы собираем оценки людей по четырем шаблонам и четырем моделям T2I, всего более 100 тыс. аннотаций. Это позволяет нам понять, где возникают различия из-за врожденной неоднозначности запроса, и где они возникают из-за различий в метриках и качестве модели. (3) Наконец, мы представляем новую авто-оценочную метрику на основе вопросов и ответов (QA), которая лучше коррелирует с оценками людей, чем существующие метрики для нашего нового набора данных, по разным шаблонам людей и на TIFA160.
English
While text-to-image (T2I) generative models have become ubiquitous, they do
not necessarily generate images that align with a given prompt. While previous
work has evaluated T2I alignment by proposing metrics, benchmarks, and
templates for collecting human judgements, the quality of these components is
not systematically measured. Human-rated prompt sets are generally small and
the reliability of the ratings -- and thereby the prompt set used to compare
models -- is not evaluated. We address this gap by performing an extensive
study evaluating auto-eval metrics and human templates. We provide three main
contributions: (1) We introduce a comprehensive skills-based benchmark that can
discriminate models across different human templates. This skills-based
benchmark categorises prompts into sub-skills, allowing a practitioner to
pinpoint not only which skills are challenging, but at what level of complexity
a skill becomes challenging. (2) We gather human ratings across four templates
and four T2I models for a total of >100K annotations. This allows us to
understand where differences arise due to inherent ambiguity in the prompt and
where they arise due to differences in metric and model quality. (3) Finally,
we introduce a new QA-based auto-eval metric that is better correlated with
human ratings than existing metrics for our new dataset, across different human
templates, and on TIFA160.Summary
AI-Generated Summary