Делаем правильно: Улучшение пространственной согласованности в моделях текст-к-изображению

Аннотация

Одним из ключевых недостатков текущих моделей текст в изображение (T2I) является их неспособность последовательно создавать изображения, которые верно отражают пространственные отношения, указанные в текстовой подсказке. В данной статье мы предлагаем всестороннее исследование этого ограничения, разрабатывая при этом наборы данных и методы, обеспечивающие современные показатели производительности. Во-первых, мы обнаружили, что текущие наборы данных видео-языкового восприятия недостаточно хорошо представляют пространственные отношения; чтобы устранить этот узкий проход, мы создали SPRIGHT, первый крупномасштабный набор данных, сосредоточенный на пространственных отношениях, путем повторной подписи 6 миллионов изображений из 4 широко используемых наборов данных видео-восприятия. Через трехкратную оценку и анализ, мы обнаружили, что SPRIGHT в значительной степени улучшает существующие наборы данных в улавливании пространственных отношений. Для демонстрации его эффективности мы используем всего ~0.25% SPRIGHT и добиваемся улучшения на 22% в создании пространственно точных изображений, а также улучшения показателей FID и CMMD. Во-вторых, мы обнаружили, что обучение на изображениях, содержащих большое количество объектов, приводит к существенному улучшению пространственной согласованности. Значительно, мы достигли современного уровня на T2I-CompBench с пространственным показателем 0.2133, путем донастройки на <500 изображениях. Наконец, через ряд контролируемых экспериментов и абляций, мы документируем несколько результатов, которые, по нашему мнению, улучшат понимание факторов, влияющих на пространственную согласованность в моделях текст в изображение. Мы публично выпускаем наш набор данных и модель для поощрения дальнейших исследований в этой области.

English

One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. First, we find that current vision-language datasets do not represent spatial relationships well enough; to alleviate this bottleneck, we create SPRIGHT, the first spatially-focused, large scale dataset, by re-captioning 6 million images from 4 widely used vision datasets. Through a 3-fold evaluation and analysis pipeline, we find that SPRIGHT largely improves upon existing datasets in capturing spatial relationships. To demonstrate its efficacy, we leverage only ~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially accurate images while also improving the FID and CMMD scores. Secondly, we find that training on images containing a large number of objects results in substantial improvements in spatial consistency. Notably, we attain state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Finally, through a set of controlled experiments and ablations, we document multiple findings that we believe will enhance the understanding of factors that affect spatial consistency in text-to-image models. We publicly release our dataset and model to foster further research in this area.

Делаем правильно: Улучшение пространственной согласованности в моделях текст-к-изображению

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Аннотация

Support