ChatPaper.aiChatPaper

Revisitando a Avaliação de Texto para Imagem com Gecko: Sobre Métricas, Prompts e Avaliações Humanas

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

April 25, 2024
Autores: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI

Resumo

Embora os modelos generativos de texto para imagem (T2I) tenham se tornado onipresentes, eles nem sempre geram imagens que se alinham com um prompt fornecido. Embora trabalhos anteriores tenham avaliado o alinhamento de T2I propondo métricas, benchmarks e templates para coletar julgamentos humanos, a qualidade desses componentes não é sistematicamente medida. Os conjuntos de prompts avaliados por humanos geralmente são pequenos, e a confiabilidade das avaliações — e, consequentemente, do conjunto de prompts usado para comparar modelos — não é avaliada. Nós abordamos essa lacuna realizando um estudo extensivo que avalia métricas de autoavaliação e templates humanos. Fornecemos três contribuições principais: (1) Introduzimos um benchmark abrangente baseado em habilidades que pode discriminar modelos em diferentes templates humanos. Esse benchmark baseado em habilidades categoriza os prompts em sub-habilidades, permitindo que um praticante identifique não apenas quais habilidades são desafiadoras, mas também em qual nível de complexidade uma habilidade se torna desafiadora. (2) Coletamos avaliações humanas em quatro templates e quatro modelos T2I, totalizando mais de 100 mil anotações. Isso nos permite entender onde as diferenças surgem devido à ambiguidade inerente no prompt e onde surgem devido a diferenças na qualidade da métrica e do modelo. (3) Por fim, introduzimos uma nova métrica de autoavaliação baseada em perguntas e respostas (QA) que apresenta uma correlação melhor com as avaliações humanas do que as métricas existentes, tanto para nosso novo conjunto de dados quanto em diferentes templates humanos e no TIFA160.
English
While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings -- and thereby the prompt set used to compare models -- is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.
PDF172December 15, 2024