ChatPaper.aiChatPaper

Вызов Commonsense-T2I: Могут ли модели генерации текста в изображение понимать здравый смысл?

Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

June 11, 2024
Авторы: Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth
cs.AI

Аннотация

Мы представляем новую задачу и бенчмарк для оценки способности моделей генерации текста в изображение (T2I) создавать изображения, соответствующие здравому смыслу в реальной жизни, которую мы называем Commonsense-T2I. Учитывая два адверсивных текстовых стимула, содержащих идентичный набор действий с незначительными различиями, такие как "лампочка без электричества" против "лампочка с электричеством", мы оцениваем, способны ли модели T2I проводить визуальное здравомыслие, например, создавать изображения, соответствующие "лампочка не горит" против "лампочка горит" соответственно. Commonsense-T2I представляет собой адверсивное испытание, предоставляя парные текстовые стимулы вместе с ожидаемыми результатами. Набор данных тщательно подготовлен экспертами и аннотирован с тонкими метками, такими как тип здравого смысла и вероятность ожидаемых результатов, чтобы помочь анализировать поведение модели. Мы проводим оценку различных передовых моделей T2I (sota) и удивительно обнаруживаем, что существует большой разрыв между синтезом изображений и фотографиями реальной жизни - даже модель DALL-E 3 смогла достичь только 48,92% на Commonsense-T2I, а стабильная модель diffusion XL достигла лишь 24,92% точности. Наши эксперименты показывают, что обогащенные GPT стимулы не могут решить эту задачу, и мы включаем подробный анализ возможных причин такого дефицита. Мы стремимся, чтобы Commonsense-T2I служил высококачественным бенчмарком для проверки здравого смысла в T2I, способствуя прогрессу в генерации изображений реальной жизни.
English
We present a novel task and benchmark for evaluating the ability of text-to-image(T2I) generation models to produce images that fit commonsense in real life, which we call Commonsense-T2I. Given two adversarial text prompts containing an identical set of action words with minor differences, such as "a lightbulb without electricity" v.s. "a lightbulb with electricity", we evaluate whether T2I models can conduct visual-commonsense reasoning, e.g. produce images that fit "the lightbulb is unlit" vs. "the lightbulb is lit" correspondingly. Commonsense-T2I presents an adversarial challenge, providing pairwise text prompts along with expected outputs. The dataset is carefully hand-curated by experts and annotated with fine-grained labels, such as commonsense type and likelihood of the expected outputs, to assist analyzing model behavior. We benchmark a variety of state-of-the-art (sota) T2I models and surprisingly find that, there is still a large gap between image synthesis and real life photos--even the DALL-E 3 model could only achieve 48.92% on Commonsense-T2I, and the stable diffusion XL model only achieves 24.92% accuracy. Our experiments show that GPT-enriched prompts cannot solve this challenge, and we include a detailed analysis about possible reasons for such deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation benchmark for T2I commonsense checking, fostering advancements in real life image generation.
PDF91December 6, 2024