ChatPaper.aiChatPaper

Geckoによるテキストから画像への評価再考:メトリクス、プロンプト、および人間評価について

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

April 25, 2024
著者: Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh
cs.AI

要旨

テキストから画像(T2I)生成モデルは広く普及しているものの、与えられたプロンプトに必ずしも整合した画像を生成するわけではありません。これまでの研究では、T2Iの整合性を評価するために、メトリクス、ベンチマーク、および人間の判断を収集するためのテンプレートを提案してきましたが、これらの構成要素の品質は体系的に測定されていません。人間による評価が行われたプロンプトセットは一般的に小さく、評価の信頼性――ひいてはモデルを比較するために使用されるプロンプトセットの信頼性――は評価されていません。このギャップを埋めるために、自動評価メトリクスと人間のテンプレートを評価する広範な研究を行いました。私たちは以下の3つの主要な貢献を提供します:(1)異なる人間のテンプレートにわたってモデルを識別できる包括的なスキルベースのベンチマークを導入します。このスキルベースのベンチマークは、プロンプトをサブスキルに分類し、どのスキルが難しいかだけでなく、どのレベルの複雑さでスキルが難しくなるかを特定できるようにします。(2)4つのテンプレートと4つのT2Iモデルにわたって、合計10万件以上のアノテーションを収集しました。これにより、プロンプトの内在的な曖昧性による違いと、メトリクスやモデルの品質の違いによる違いを理解することができます。(3)最後に、新しいQAベースの自動評価メトリクスを導入します。このメトリクスは、新しいデータセット、異なる人間のテンプレート、およびTIFA160において、既存のメトリクスよりも人間の評価と高い相関を示します。
English
While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings -- and thereby the prompt set used to compare models -- is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.

Summary

AI-Generated Summary

PDF172December 15, 2024