ChatPaper.aiChatPaper

Het Goed Doen: Ruimtelijke Consistentie Verbeteren in Tekst-naar-Beeldmodellen

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

April 1, 2024
Auteurs: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI

Samenvatting

Een van de belangrijkste tekortkomingen in huidige tekst-naar-beeld (T2I) modellen is hun onvermogen om consistent afbeeldingen te genereren die nauwkeurig de ruimtelijke relaties volgen die in de tekstprompt zijn gespecificeerd. In dit artikel bieden we een uitgebreid onderzoek naar deze beperking, terwijl we ook datasets en methoden ontwikkelen die state-of-the-art prestaties leveren. Ten eerste constateren we dat huidige visie-taal datasets ruimtelijke relaties niet goed genoeg weergeven; om dit knelpunt te verlichten, creëren we SPRIGHT, de eerste grootschalige dataset die gericht is op ruimtelijke relaties, door 6 miljoen afbeeldingen uit 4 veelgebruikte visie datasets opnieuw te voorzien van bijschriften. Door middel van een driedelige evaluatie- en analysepijplijn constateren we dat SPRIGHT aanzienlijk verbetert ten opzichte van bestaande datasets in het vastleggen van ruimtelijke relaties. Om de effectiviteit ervan aan te tonen, maken we gebruik van slechts ~0,25% van SPRIGHT en behalen we een verbetering van 22% in het genereren van ruimtelijk nauwkeurige afbeeldingen, terwijl we ook de FID- en CMMD-scores verbeteren. Ten tweede constateren we dat training op afbeeldingen met een groot aantal objecten leidt tot aanzienlijke verbeteringen in ruimtelijke consistentie. Opmerkelijk is dat we state-of-the-art behalen op T2I-CompBench met een ruimtelijke score van 0,2133, door fine-tuning op minder dan 500 afbeeldingen. Tot slot documenteren we door middel van een reeks gecontroleerde experimenten en ablatie-studies meerdere bevindingen waarvan we geloven dat ze het begrip van factoren die ruimtelijke consistentie in tekst-naar-beeld modellen beïnvloeden, zullen vergroten. We maken onze dataset en model publiekelijk beschikbaar om verder onderzoek op dit gebied te bevorderen.
English
One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. First, we find that current vision-language datasets do not represent spatial relationships well enough; to alleviate this bottleneck, we create SPRIGHT, the first spatially-focused, large scale dataset, by re-captioning 6 million images from 4 widely used vision datasets. Through a 3-fold evaluation and analysis pipeline, we find that SPRIGHT largely improves upon existing datasets in capturing spatial relationships. To demonstrate its efficacy, we leverage only ~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially accurate images while also improving the FID and CMMD scores. Secondly, we find that training on images containing a large number of objects results in substantial improvements in spatial consistency. Notably, we attain state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Finally, through a set of controlled experiments and ablations, we document multiple findings that we believe will enhance the understanding of factors that affect spatial consistency in text-to-image models. We publicly release our dataset and model to foster further research in this area.
PDF313February 8, 2026