Sfida Commonsense-T2I: I modelli di generazione di immagini da testo possono comprendere il senso comune?
Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?
June 11, 2024
Autori: Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth
cs.AI
Abstract
Presentiamo un nuovo compito e benchmark per valutare la capacità dei modelli di generazione da testo a immagine (T2I) di produrre immagini che rispettino il buon senso nella vita reale, che chiamiamo Commonsense-T2I. Dati due prompt testuali avversari contenenti un insieme identico di parole d'azione con lievi differenze, come "una lampadina senza elettricità" rispetto a "una lampadina con elettricità", valutiamo se i modelli T2I sono in grado di condurre un ragionamento visivo basato sul buon senso, ad esempio producendo immagini che corrispondano a "la lampadina è spenta" rispetto a "la lampadina è accesa". Commonsense-T2I presenta una sfida avversaria, fornendo prompt testuali in coppia insieme ai risultati attesi. Il dataset è stato accuratamente curato manualmente da esperti e annotato con etichette dettagliate, come il tipo di buon senso e la probabilità dei risultati attesi, per aiutare nell'analisi del comportamento del modello. Abbiamo valutato una varietà di modelli T2I all'avanguardia (sota) e, sorprendentemente, abbiamo scoperto che c'è ancora un ampio divario tra la sintesi di immagini e le foto della vita reale: anche il modello DALL-E 3 ha raggiunto solo il 48,92% su Commonsense-T2I, e il modello Stable Diffusion XL ha raggiunto solo un'accuratezza del 24,92%. I nostri esperimenti dimostrano che i prompt arricchiti con GPT non possono risolvere questa sfida, e includiamo un'analisi dettagliata sulle possibili ragioni di tale carenza. Miriamo a far sì che Commonsense-T2I serva come un benchmark di valutazione di alta qualità per il controllo del buon senso nei modelli T2I, promuovendo progressi nella generazione di immagini realistiche.
English
We present a novel task and benchmark for evaluating the ability of
text-to-image(T2I) generation models to produce images that fit commonsense in
real life, which we call Commonsense-T2I. Given two adversarial text prompts
containing an identical set of action words with minor differences, such as "a
lightbulb without electricity" v.s. "a lightbulb with electricity", we evaluate
whether T2I models can conduct visual-commonsense reasoning, e.g. produce
images that fit "the lightbulb is unlit" vs. "the lightbulb is lit"
correspondingly. Commonsense-T2I presents an adversarial challenge, providing
pairwise text prompts along with expected outputs. The dataset is carefully
hand-curated by experts and annotated with fine-grained labels, such as
commonsense type and likelihood of the expected outputs, to assist analyzing
model behavior. We benchmark a variety of state-of-the-art (sota) T2I models
and surprisingly find that, there is still a large gap between image synthesis
and real life photos--even the DALL-E 3 model could only achieve 48.92% on
Commonsense-T2I, and the stable diffusion XL model only achieves 24.92%
accuracy. Our experiments show that GPT-enriched prompts cannot solve this
challenge, and we include a detailed analysis about possible reasons for such
deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation
benchmark for T2I commonsense checking, fostering advancements in real life
image generation.