ChatPaper.aiChatPaper

属性条件付き人間評価による画像生成の多様性ベンチマーキング

Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

November 13, 2025
著者: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI

要旨

生成品質が向上しているにもかかわらず、現在のテキストから画像(T2I)モデルは、均質な出力を生成する傾向があり、多様性に欠けることが多い。本研究は、T2Iモデルにおける頑健な多様性評価の必要性に対処する枠組みを提案する。本枠組みは、個々の概念とその関連する変動要因を評価することで、多様性を体系的に査定する。主な貢献は以下の通りである:(1) 細やかな多様性評価のための新しい人間評価テンプレート、(2) 特定された変動要因(例:プロンプト「リンゴの画像」、変動要因「色」)とともに多様な概念を網羅する厳選されたプロンプトセット、(3) 二項検定を用いた人間の注釈に基づくモデル比較の方法論。さらに、我々は多様性測定のための様々な画像埋め込み手法を厳密に比較する。特に、本原理に基づくアプローチにより、T2Iモデルを多様性で順位付けし、モデルが特に困難とするカテゴリを特定することを可能にする。本研究は頑健な方法論と知見を提供し、T2Iモデルの多様性と指標開発の改善への道を開くものである。
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests. Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.
PDF42December 1, 2025