Lograr la precisión: Mejorando la consistencia espacial en los modelos de texto a imagen
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
Autores: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
Resumen
Uno de los principales defectos de los modelos actuales de texto a imagen (T2I) es su incapacidad para generar de manera consistente imágenes que sigan fielmente las relaciones espaciales especificadas en el texto. En este artículo, ofrecemos una investigación exhaustiva de esta limitación, al mismo tiempo que desarrollamos conjuntos de datos y métodos que logran un rendimiento de vanguardia. En primer lugar, encontramos que los conjuntos de datos actuales de visión y lenguaje no representan adecuadamente las relaciones espaciales; para aliviar este cuello de botella, creamos SPRIGHT, el primer conjunto de datos a gran escala centrado en aspectos espaciales, mediante la reetiquetación de 6 millones de imágenes de 4 conjuntos de datos de visión ampliamente utilizados. A través de una tubería de evaluación y análisis en tres fases, encontramos que SPRIGHT mejora significativamente la captura de relaciones espaciales en comparación con los conjuntos de datos existentes. Para demostrar su eficacia, utilizamos solo ~0.25% de SPRIGHT y logramos una mejora del 22% en la generación de imágenes espacialmente precisas, al mismo tiempo que mejoramos las puntuaciones FID y CMMD. En segundo lugar, encontramos que el entrenamiento con imágenes que contienen un gran número de objetos resulta en mejoras sustanciales en la consistencia espacial. Notablemente, alcanzamos el estado del arte en T2I-CompBench con una puntuación espacial de 0.2133, ajustando el modelo con menos de 500 imágenes. Finalmente, a través de un conjunto de experimentos controlados y ablaciones, documentamos múltiples hallazgos que creemos que mejorarán la comprensión de los factores que afectan la consistencia espacial en los modelos de texto a imagen. Publicamos nuestro conjunto de datos y modelo para fomentar más investigaciones en esta área.
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.Summary
AI-Generated Summary