Den richtigen Weg einschlagen: Verbesserung der räumlichen Konsistenz in Text-zu-Bild-Modellen
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
Autoren: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
Zusammenfassung
Eine der Hauptmängel bei aktuellen Text-zu-Bild (T2I)-Modellen ist ihre Unfähigkeit, Bilder konsequent zu generieren, die den in der Textvorgabe angegebenen räumlichen Beziehungen treu folgen. In diesem Papier bieten wir eine umfassende Untersuchung dieser Einschränkung an und entwickeln gleichzeitig Datensätze und Methoden, die eine Spitzenleistung erzielen. Zunächst stellen wir fest, dass aktuelle Vision-Sprache-Datensätze räumliche Beziehungen nicht ausreichend gut darstellen; um diesen Engpass zu mildern, erstellen wir SPRIGHT, den ersten räumlich fokussierten, groß angelegten Datensatz, indem wir 6 Millionen Bilder aus 4 weit verbreiteten Vision-Datensätzen neu beschriften. Durch einen 3-fachen Evaluations- und Analyseprozess stellen wir fest, dass SPRIGHT die bestehenden Datensätze weitgehend verbessert, was die Erfassung räumlicher Beziehungen betrifft. Um seine Wirksamkeit zu demonstrieren, nutzen wir nur ~0,25% von SPRIGHT und erzielen eine 22%ige Verbesserung bei der Generierung räumlich genauer Bilder, wobei wir auch die FID- und CMMD-Werte verbessern. Zweitens stellen wir fest, dass das Training auf Bildern, die eine große Anzahl von Objekten enthalten, zu erheblichen Verbesserungen in der räumlichen Konsistenz führt. Bemerkenswerterweise erreichen wir auf T2I-CompBench mit einem räumlichen Score von 0,2133 eine Spitzenleistung, indem wir das Feintuning auf <500 Bildern durchführen. Schließlich dokumentieren wir durch eine Reihe von kontrollierten Experimenten und Ablationen mehrere Erkenntnisse, von denen wir glauben, dass sie das Verständnis der Faktoren, die die räumliche Konsistenz in Text-zu-Bild-Modellen beeinflussen, verbessern werden. Wir veröffentlichen unseren Datensatz und unser Modell öffentlich, um weitere Forschungen in diesem Bereich zu fördern.
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.Summary
AI-Generated Summary