Het Goed Doen: Ruimtelijke Consistentie Verbeteren in Tekst-naar-Beeldmodellen
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
Auteurs: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
Samenvatting
Een van de belangrijkste tekortkomingen in huidige tekst-naar-beeld (T2I) modellen is hun onvermogen om consistent afbeeldingen te genereren die nauwkeurig de ruimtelijke relaties volgen die in de tekstprompt zijn gespecificeerd. In dit artikel bieden we een uitgebreid onderzoek naar deze beperking, terwijl we ook datasets en methoden ontwikkelen die state-of-the-art prestaties leveren. Ten eerste constateren we dat huidige visie-taal datasets ruimtelijke relaties niet goed genoeg weergeven; om dit knelpunt te verlichten, creëren we SPRIGHT, de eerste grootschalige dataset die gericht is op ruimtelijke relaties, door 6 miljoen afbeeldingen uit 4 veelgebruikte visie datasets opnieuw te voorzien van bijschriften. Door middel van een driedelige evaluatie- en analysepijplijn constateren we dat SPRIGHT aanzienlijk verbetert ten opzichte van bestaande datasets in het vastleggen van ruimtelijke relaties. Om de effectiviteit ervan aan te tonen, maken we gebruik van slechts ~0,25% van SPRIGHT en behalen we een verbetering van 22% in het genereren van ruimtelijk nauwkeurige afbeeldingen, terwijl we ook de FID- en CMMD-scores verbeteren. Ten tweede constateren we dat training op afbeeldingen met een groot aantal objecten leidt tot aanzienlijke verbeteringen in ruimtelijke consistentie. Opmerkelijk is dat we state-of-the-art behalen op T2I-CompBench met een ruimtelijke score van 0,2133, door fine-tuning op minder dan 500 afbeeldingen. Tot slot documenteren we door middel van een reeks gecontroleerde experimenten en ablatie-studies meerdere bevindingen waarvan we geloven dat ze het begrip van factoren die ruimtelijke consistentie in tekst-naar-beeld modellen beïnvloeden, zullen vergroten. We maken onze dataset en model publiekelijk beschikbaar om verder onderzoek op dit gebied te bevorderen.
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.