Fare le Cose per Bene: Migliorare la Coerenza Spaziale nei Modelli di Generazione di Immagini da Testo

Abstract

Uno dei principali limiti degli attuali modelli di testo-immagine (T2I) è la loro incapacità di generare in modo coerente immagini che seguano fedelmente le relazioni spaziali specificate nel prompt testuale. In questo articolo, offriamo un'analisi approfondita di questa limitazione, sviluppando al contempo dataset e metodi che raggiungono prestazioni all'avanguardia. In primo luogo, osserviamo che i dataset attuali di visione e linguaggio non rappresentano adeguatamente le relazioni spaziali; per alleviare questo collo di bottiglia, creiamo SPRIGHT, il primo dataset su larga scala focalizzato sull'aspetto spaziale, ricaptionando 6 milioni di immagini provenienti da 4 dataset di visione ampiamente utilizzati. Attraverso una pipeline di valutazione e analisi tripartita, scopriamo che SPRIGHT migliora significativamente rispetto ai dataset esistenti nella cattura delle relazioni spaziali. Per dimostrarne l'efficacia, utilizziamo solo ~0,25% di SPRIGHT e otteniamo un miglioramento del 22% nella generazione di immagini spazialmente accurate, migliorando anche i punteggi FID e CMMD. In secondo luogo, osserviamo che l'addestramento su immagini contenenti un numero elevato di oggetti porta a sostanziali miglioramenti nella coerenza spaziale. In particolare, raggiungiamo lo stato dell'arte su T2I-CompBench con un punteggio spaziale di 0,2133, effettuando il fine-tuning su meno di 500 immagini. Infine, attraverso una serie di esperimenti controllati e ablazioni, documentiamo molteplici risultati che riteniamo possano migliorare la comprensione dei fattori che influenzano la coerenza spaziale nei modelli testo-immagine. Rilasciamo pubblicamente il nostro dataset e il modello per favorire ulteriori ricerche in questo ambito.

English

One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. First, we find that current vision-language datasets do not represent spatial relationships well enough; to alleviate this bottleneck, we create SPRIGHT, the first spatially-focused, large scale dataset, by re-captioning 6 million images from 4 widely used vision datasets. Through a 3-fold evaluation and analysis pipeline, we find that SPRIGHT largely improves upon existing datasets in capturing spatial relationships. To demonstrate its efficacy, we leverage only ~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially accurate images while also improving the FID and CMMD scores. Secondly, we find that training on images containing a large number of objects results in substantial improvements in spatial consistency. Notably, we attain state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Finally, through a set of controlled experiments and ablations, we document multiple findings that we believe will enhance the understanding of factors that affect spatial consistency in text-to-image models. We publicly release our dataset and model to foster further research in this area.

Fare le Cose per Bene: Migliorare la Coerenza Spaziale nei Modelli di Generazione di Immagini da Testo

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Abstract

Support