Desafío Commonsense-T2I: ¿Pueden los modelos de generación de imágenes a partir de texto comprender el sentido común?
Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?
June 11, 2024
Autores: Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth
cs.AI
Resumen
Presentamos una tarea y un punto de referencia novedosos para evaluar la capacidad de los modelos de generación de texto a imagen (T2I) para producir imágenes que se ajusten al sentido común en la vida real, al que denominamos Commonsense-T2I. Dados dos textos adversarios que contienen un conjunto idéntico de palabras de acción con diferencias mínimas, como "una bombilla sin electricidad" frente a "una bombilla con electricidad", evaluamos si los modelos T2I pueden realizar un razonamiento visual basado en el sentido común, por ejemplo, producir imágenes que se ajusten a "la bombilla está apagada" frente a "la bombilla está encendida" de manera correspondiente. Commonsense-T2I presenta un desafío adversario, proporcionando pares de textos junto con los resultados esperados. El conjunto de datos ha sido cuidadosamente curado por expertos y anotado con etiquetas detalladas, como el tipo de sentido común y la probabilidad de los resultados esperados, para ayudar a analizar el comportamiento de los modelos. Evaluamos una variedad de modelos T2I de última generación (sota) y, sorprendentemente, encontramos que aún existe una gran brecha entre la síntesis de imágenes y las fotos de la vida real: incluso el modelo DALL-E 3 solo alcanzó un 48,92% en Commonsense-T2I, y el modelo Stable Diffusion XL solo logró un 24,92% de precisión. Nuestros experimentos muestran que los textos enriquecidos con GPT no pueden resolver este desafío, e incluimos un análisis detallado sobre las posibles razones de esta deficiencia. Nuestro objetivo es que Commonsense-T2I sirva como un punto de referencia de alta calidad para la verificación del sentido común en T2I, fomentando avances en la generación de imágenes realistas.
English
We present a novel task and benchmark for evaluating the ability of
text-to-image(T2I) generation models to produce images that fit commonsense in
real life, which we call Commonsense-T2I. Given two adversarial text prompts
containing an identical set of action words with minor differences, such as "a
lightbulb without electricity" v.s. "a lightbulb with electricity", we evaluate
whether T2I models can conduct visual-commonsense reasoning, e.g. produce
images that fit "the lightbulb is unlit" vs. "the lightbulb is lit"
correspondingly. Commonsense-T2I presents an adversarial challenge, providing
pairwise text prompts along with expected outputs. The dataset is carefully
hand-curated by experts and annotated with fine-grained labels, such as
commonsense type and likelihood of the expected outputs, to assist analyzing
model behavior. We benchmark a variety of state-of-the-art (sota) T2I models
and surprisingly find that, there is still a large gap between image synthesis
and real life photos--even the DALL-E 3 model could only achieve 48.92% on
Commonsense-T2I, and the stable diffusion XL model only achieves 24.92%
accuracy. Our experiments show that GPT-enriched prompts cannot solve this
challenge, and we include a detailed analysis about possible reasons for such
deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation
benchmark for T2I commonsense checking, fostering advancements in real life
image generation.