ChatPaper.aiChatPaper

Gecko를 통한 텍스트-이미지 평가 재고: 메트릭, 프롬프트, 그리고 인간 평가를 중심으로

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

April 25, 2024
저자: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI

초록

텍스트-이미지(T2I) 생성 모델이 보편화되었음에도 불구하고, 이들이 주어진 프롬프트와 일치하는 이미지를 생성한다고 보장할 수는 없습니다. 기존 연구에서는 T2I 정렬을 평가하기 위해 메트릭, 벤치마크, 그리고 인간 판단을 수집하기 위한 템플릿을 제안했지만, 이러한 구성 요소들의 질은 체계적으로 측정되지 않았습니다. 인간이 평가한 프롬프트 세트는 일반적으로 작으며, 평가의 신뢰도와 이를 통해 모델을 비교하는 데 사용되는 프롬프트 세트의 신뢰도는 평가되지 않았습니다. 우리는 이 격차를 해소하기 위해 자동 평가 메트릭과 인간 템플릿을 평가하는 광범위한 연구를 수행했습니다. 우리는 세 가지 주요 기여를 제공합니다: (1) 다양한 인간 템플릿에서 모델을 구별할 수 있는 포괄적인 스킬 기반 벤치마크를 소개합니다. 이 스킬 기반 벤치마크는 프롬프트를 하위 스킬로 분류하여, 어떤 스킬이 어려운지뿐만 아니라 어떤 복잡도에서 스킬이 어려워지는지를 명확히 파악할 수 있도록 합니다. (2) 네 가지 템플릿과 네 가지 T2I 모델에 대해 총 10만 개 이상의 인간 평가를 수집했습니다. 이를 통해 프롬프트의 고유한 모호성으로 인한 차이와 메트릭 및 모델 품질의 차이로 인한 차이를 이해할 수 있습니다. (3) 마지막으로, 새로운 데이터셋, 다양한 인간 템플릿, 그리고 TIFA160에서 기존 메트릭보다 인간 평가와 더 높은 상관관계를 보이는 새로운 QA 기반 자동 평가 메트릭을 소개합니다.
English
While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings -- and thereby the prompt set used to compare models -- is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.

Summary

AI-Generated Summary

PDF172December 15, 2024