Делаем правильно: Улучшение пространственной согласованности в моделях текст-к-изображению
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
Авторы: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
Аннотация
Одним из ключевых недостатков текущих моделей текст в изображение (T2I) является их неспособность последовательно создавать изображения, которые верно отражают пространственные отношения, указанные в текстовой подсказке. В данной статье мы предлагаем всестороннее исследование этого ограничения, разрабатывая при этом наборы данных и методы, обеспечивающие современные показатели производительности. Во-первых, мы обнаружили, что текущие наборы данных видео-языкового восприятия недостаточно хорошо представляют пространственные отношения; чтобы устранить этот узкий проход, мы создали SPRIGHT, первый крупномасштабный набор данных, сосредоточенный на пространственных отношениях, путем повторной подписи 6 миллионов изображений из 4 широко используемых наборов данных видео-восприятия. Через трехкратную оценку и анализ, мы обнаружили, что SPRIGHT в значительной степени улучшает существующие наборы данных в улавливании пространственных отношений. Для демонстрации его эффективности мы используем всего ~0.25% SPRIGHT и добиваемся улучшения на 22% в создании пространственно точных изображений, а также улучшения показателей FID и CMMD. Во-вторых, мы обнаружили, что обучение на изображениях, содержащих большое количество объектов, приводит к существенному улучшению пространственной согласованности. Значительно, мы достигли современного уровня на T2I-CompBench с пространственным показателем 0.2133, путем донастройки на <500 изображениях. Наконец, через ряд контролируемых экспериментов и абляций, мы документируем несколько результатов, которые, по нашему мнению, улучшат понимание факторов, влияющих на пространственную согласованность в моделях текст в изображение. Мы публично выпускаем наш набор данных и модель для поощрения дальнейших исследований в этой области.
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.Summary
AI-Generated Summary