Reevaluando la evaluación de texto a imagen con Gecko: sobre métricas, indicaciones y calificaciones humanas
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings
April 25, 2024
Autores: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI
Resumen
Si bien los modelos generativos de texto a imagen (T2I) se han vuelto omnipresentes, no siempre generan imágenes que se alineen con un prompt dado. Aunque trabajos anteriores han evaluado la alineación de T2I proponiendo métricas, benchmarks y plantillas para recopilar juicios humanos, la calidad de estos componentes no se mide sistemáticamente. Los conjuntos de prompts evaluados por humanos suelen ser pequeños y la confiabilidad de las calificaciones —y, por ende, del conjunto de prompts utilizado para comparar modelos— no se evalúa. Abordamos esta brecha realizando un estudio extensivo que evalúa métricas de auto-evaluación y plantillas humanas. Proporcionamos tres contribuciones principales: (1) Introducimos un benchmark integral basado en habilidades que puede discriminar modelos en diferentes plantillas humanas. Este benchmark basado en habilidades categoriza los prompts en sub-habilidades, permitiendo a un profesional identificar no solo qué habilidades son desafiantes, sino también en qué nivel de complejidad una habilidad se vuelve difícil. (2) Recopilamos calificaciones humanas en cuatro plantillas y cuatro modelos T2I, totalizando más de 100K anotaciones. Esto nos permite entender dónde surgen diferencias debido a la ambigüedad inherente en el prompt y dónde se deben a diferencias en la calidad de la métrica y del modelo. (3) Finalmente, introducimos una nueva métrica de auto-evaluación basada en preguntas y respuestas (QA) que está mejor correlacionada con las calificaciones humanas que las métricas existentes, tanto en nuestro nuevo conjunto de datos como en diferentes plantillas humanas y en TIFA160.
English
While text-to-image (T2I) generative models have become ubiquitous, they do
not necessarily generate images that align with a given prompt. While previous
work has evaluated T2I alignment by proposing metrics, benchmarks, and
templates for collecting human judgements, the quality of these components is
not systematically measured. Human-rated prompt sets are generally small and
the reliability of the ratings -- and thereby the prompt set used to compare
models -- is not evaluated. We address this gap by performing an extensive
study evaluating auto-eval metrics and human templates. We provide three main
contributions: (1) We introduce a comprehensive skills-based benchmark that can
discriminate models across different human templates. This skills-based
benchmark categorises prompts into sub-skills, allowing a practitioner to
pinpoint not only which skills are challenging, but at what level of complexity
a skill becomes challenging. (2) We gather human ratings across four templates
and four T2I models for a total of >100K annotations. This allows us to
understand where differences arise due to inherent ambiguity in the prompt and
where they arise due to differences in metric and model quality. (3) Finally,
we introduce a new QA-based auto-eval metric that is better correlated with
human ratings than existing metrics for our new dataset, across different human
templates, and on TIFA160.Summary
AI-Generated Summary