Desafio Commonsense-T2I: Os Modelos de Geração de Imagens a partir de Texto Podem Compreender o Senso Comum?
Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?
June 11, 2024
Autores: Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth
cs.AI
Resumo
Apresentamos uma nova tarefa e benchmark para avaliar a capacidade dos modelos de geração de texto para imagem (T2I) de produzir imagens que se alinhem ao senso comum na vida real, que denominamos Commonsense-T2I. Dados dois prompts textuais adversariais contendo um conjunto idêntico de palavras de ação com pequenas diferenças, como "uma lâmpada sem eletricidade" versus "uma lâmpada com eletricidade", avaliamos se os modelos T2I conseguem realizar raciocínio visual de senso comum, por exemplo, produzir imagens que se ajustem a "a lâmpada está apagada" versus "a lâmpada está acesa", respectivamente. O Commonsense-T2I apresenta um desafio adversarial, fornecendo prompts textuais em pares juntamente com saídas esperadas. O conjunto de dados foi cuidadosamente curado por especialistas e anotado com rótulos detalhados, como tipo de senso comum e probabilidade das saídas esperadas, para auxiliar na análise do comportamento do modelo. Avaliamos uma variedade de modelos T2I state-of-the-art (sota) e, surpreendentemente, descobrimos que ainda há uma grande lacuna entre a síntese de imagens e fotos da vida real—mesmo o modelo DALL-E 3 conseguiu apenas 48,92% no Commonsense-T2I, e o modelo Stable Diffusion XL alcançou apenas 24,92% de precisão. Nossos experimentos mostram que prompts enriquecidos com GPT não conseguem resolver esse desafio, e incluímos uma análise detalhada sobre possíveis razões para essa deficiência. Nosso objetivo é que o Commonsense-T2I sirva como um benchmark de avaliação de alta qualidade para verificação de senso comum em T2I, promovendo avanços na geração de imagens realistas.
English
We present a novel task and benchmark for evaluating the ability of
text-to-image(T2I) generation models to produce images that fit commonsense in
real life, which we call Commonsense-T2I. Given two adversarial text prompts
containing an identical set of action words with minor differences, such as "a
lightbulb without electricity" v.s. "a lightbulb with electricity", we evaluate
whether T2I models can conduct visual-commonsense reasoning, e.g. produce
images that fit "the lightbulb is unlit" vs. "the lightbulb is lit"
correspondingly. Commonsense-T2I presents an adversarial challenge, providing
pairwise text prompts along with expected outputs. The dataset is carefully
hand-curated by experts and annotated with fine-grained labels, such as
commonsense type and likelihood of the expected outputs, to assist analyzing
model behavior. We benchmark a variety of state-of-the-art (sota) T2I models
and surprisingly find that, there is still a large gap between image synthesis
and real life photos--even the DALL-E 3 model could only achieve 48.92% on
Commonsense-T2I, and the stable diffusion XL model only achieves 24.92%
accuracy. Our experiments show that GPT-enriched prompts cannot solve this
challenge, and we include a detailed analysis about possible reasons for such
deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation
benchmark for T2I commonsense checking, fostering advancements in real life
image generation.