Acertando o Alvo: Melhorando a Consistência Espacial em Modelos de Texto para Imagem
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
Autores: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
Resumo
Uma das principais deficiências dos modelos atuais de texto para imagem (T2I) é a incapacidade de gerar consistentemente imagens que sigam fielmente as relações espaciais especificadas no prompt de texto. Neste artigo, oferecemos uma investigação abrangente dessa limitação, ao mesmo tempo em que desenvolvemos conjuntos de dados e métodos que alcançam desempenho de ponta. Primeiro, descobrimos que os conjuntos de dados atuais de visão e linguagem não representam bem as relações espaciais; para aliviar esse gargalo, criamos o SPRIGHT, o primeiro conjunto de dados em grande escala focado em aspectos espaciais, ao recaptar 6 milhões de imagens de 4 conjuntos de dados de visão amplamente utilizados. Por meio de um pipeline de avaliação e análise tripla, constatamos que o SPRIGHT melhora significativamente os conjuntos de dados existentes na captura de relações espaciais. Para demonstrar sua eficácia, utilizamos apenas ~0,25% do SPRIGHT e alcançamos uma melhoria de 22% na geração de imagens espacialmente precisas, além de melhorar as pontuações FID e CMMD. Em segundo lugar, descobrimos que o treinamento em imagens contendo um grande número de objetos resulta em melhorias substanciais na consistência espacial. Notavelmente, alcançamos o estado da arte no T2I-CompBench com uma pontuação espacial de 0,2133, ao ajustar finamente menos de 500 imagens. Por fim, por meio de um conjunto de experimentos controlados e ablações, documentamos várias descobertas que acreditamos que aprimorarão a compreensão dos fatores que afetam a consistência espacial em modelos de texto para imagem. Disponibilizamos publicamente nosso conjunto de dados e modelo para fomentar pesquisas adicionais nessa área.
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.