ChatPaper.aiChatPaper

Бенчмаркинг разнообразия в генерации изображений с помощью атрибутивно-условной человеческой оценки

Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

November 13, 2025
Авторы: Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
cs.AI

Аннотация

Несмотря на прогресс в качестве генерации, современные модели преобразования текста в изображение (T2I) часто демонстрируют недостаточное разнообразие, создавая однородные результаты. Данная работа представляет методологию, направленную на решение проблемы надежной оценки разнообразия в моделях T2I. Наш подход систематически оценивает разнообразие путем анализа отдельных концепций и соответствующих им факторов вариативности. Ключевые вклады включают: (1) новый шаблон человеческой оценки для детального анализа разнообразия; (2) тщательно отобранный набор промптов, охватывающий различные концепции с идентифицированными факторами вариативности (например, промпт: «Изображение яблока», фактор вариативности: цвет); и (3) методологию сравнения моделей на основе человеческих аннотаций с помощью биномиальных тестов. Кроме того, мы проводим строгое сравнение различных векторных представлений изображений для измерения разнообразия. Примечательно, что наш принципиальный подход позволяет ранжировать модели T2I по уровню разнообразия и выявлять категории, в которых они испытывают особые трудности. Это исследование предлагает надежную методологию и новые insights, прокладывая путь к улучшению разнообразия моделей T2I и развитию соответствующих метрик.
English
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concepts with their identified factors of variation (e.g. prompt: An image of an apple, factor of variation: color); and (3) a methodology for comparing models in terms of human annotations via binomial tests. Furthermore, we rigorously compare various image embeddings for diversity measurement. Notably, our principled approach enables ranking of T2I models by diversity, identifying categories where they particularly struggle. This research offers a robust methodology and insights, paving the way for improvements in T2I model diversity and metric development.
PDF42December 1, 2025