ChatPaper.aiChatPaper

Défi Commonsense-T2I : Les modèles de génération d'images à partir de texte peuvent-ils comprendre le sens commun ?

Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

June 11, 2024
papers.authors: Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth
cs.AI

papers.abstract

Nous présentons une nouvelle tâche et un nouveau benchmark pour évaluer la capacité des modèles de génération texte-image (T2I) à produire des images conformes au bon sens dans la vie réelle, que nous appelons Commonsense-T2I. Étant donnés deux prompts textuels adversariaux contenant un ensemble identique de mots d'action avec des différences mineures, tels que "une ampoule sans électricité" contre "une ampoule avec électricité", nous évaluons si les modèles T2I peuvent effectuer un raisonnement visuel de bon sens, par exemple produire des images qui correspondent à "l'ampoule est éteinte" contre "l'ampoule est allumée" respectivement. Commonsense-T2I présente un défi adversarial, fournissant des paires de prompts textuels ainsi que les sorties attendues. Le jeu de données est soigneusement sélectionné et annoté par des experts avec des étiquettes fines, telles que le type de bon sens et la probabilité des sorties attendues, pour aider à analyser le comportement des modèles. Nous évaluons une variété de modèles T2I de pointe et constatons, de manière surprenante, qu'il existe encore un écart important entre la synthèse d'images et les photos de la vie réelle—même le modèle DALL-E 3 n'a pu atteindre que 48,92 % sur Commonsense-T2I, et le modèle Stable Diffusion XL n'atteint que 24,92 % de précision. Nos expériences montrent que les prompts enrichis par GPT ne peuvent pas résoudre ce défi, et nous incluons une analyse détaillée des raisons possibles de cette déficience. Nous visons à ce que Commonsense-T2I serve de benchmark d'évaluation de haute qualité pour la vérification du bon sens dans les modèles T2I, favorisant les avancées dans la génération d'images réalistes.
English
We present a novel task and benchmark for evaluating the ability of text-to-image(T2I) generation models to produce images that fit commonsense in real life, which we call Commonsense-T2I. Given two adversarial text prompts containing an identical set of action words with minor differences, such as "a lightbulb without electricity" v.s. "a lightbulb with electricity", we evaluate whether T2I models can conduct visual-commonsense reasoning, e.g. produce images that fit "the lightbulb is unlit" vs. "the lightbulb is lit" correspondingly. Commonsense-T2I presents an adversarial challenge, providing pairwise text prompts along with expected outputs. The dataset is carefully hand-curated by experts and annotated with fine-grained labels, such as commonsense type and likelihood of the expected outputs, to assist analyzing model behavior. We benchmark a variety of state-of-the-art (sota) T2I models and surprisingly find that, there is still a large gap between image synthesis and real life photos--even the DALL-E 3 model could only achieve 48.92% on Commonsense-T2I, and the stable diffusion XL model only achieves 24.92% accuracy. Our experiments show that GPT-enriched prompts cannot solve this challenge, and we include a detailed analysis about possible reasons for such deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation benchmark for T2I commonsense checking, fostering advancements in real life image generation.
PDF91December 6, 2024