Fare le Cose per Bene: Migliorare la Coerenza Spaziale nei Modelli di Generazione di Immagini da Testo
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
Autori: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
Abstract
Uno dei principali limiti degli attuali modelli di testo-immagine (T2I) è la loro incapacità di generare in modo coerente immagini che seguano fedelmente le relazioni spaziali specificate nel prompt testuale. In questo articolo, offriamo un'analisi approfondita di questa limitazione, sviluppando al contempo dataset e metodi che raggiungono prestazioni all'avanguardia. In primo luogo, osserviamo che i dataset attuali di visione e linguaggio non rappresentano adeguatamente le relazioni spaziali; per alleviare questo collo di bottiglia, creiamo SPRIGHT, il primo dataset su larga scala focalizzato sull'aspetto spaziale, ricaptionando 6 milioni di immagini provenienti da 4 dataset di visione ampiamente utilizzati. Attraverso una pipeline di valutazione e analisi tripartita, scopriamo che SPRIGHT migliora significativamente rispetto ai dataset esistenti nella cattura delle relazioni spaziali. Per dimostrarne l'efficacia, utilizziamo solo ~0,25% di SPRIGHT e otteniamo un miglioramento del 22% nella generazione di immagini spazialmente accurate, migliorando anche i punteggi FID e CMMD. In secondo luogo, osserviamo che l'addestramento su immagini contenenti un numero elevato di oggetti porta a sostanziali miglioramenti nella coerenza spaziale. In particolare, raggiungiamo lo stato dell'arte su T2I-CompBench con un punteggio spaziale di 0,2133, effettuando il fine-tuning su meno di 500 immagini. Infine, attraverso una serie di esperimenti controllati e ablazioni, documentiamo molteplici risultati che riteniamo possano migliorare la comprensione dei fattori che influenzano la coerenza spaziale nei modelli testo-immagine. Rilasciamo pubblicamente il nostro dataset e il modello per favorire ulteriori ricerche in questo ambito.
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.