ChatPaper.aiChatPaper

Делаем правильно: Улучшение пространственной согласованности в моделях текст-к-изображению

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

April 1, 2024
Авторы: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI

Аннотация

Одним из ключевых недостатков текущих моделей текст в изображение (T2I) является их неспособность последовательно создавать изображения, которые верно отражают пространственные отношения, указанные в текстовой подсказке. В данной статье мы предлагаем всестороннее исследование этого ограничения, разрабатывая при этом наборы данных и методы, обеспечивающие современные показатели производительности. Во-первых, мы обнаружили, что текущие наборы данных видео-языкового восприятия недостаточно хорошо представляют пространственные отношения; чтобы устранить этот узкий проход, мы создали SPRIGHT, первый крупномасштабный набор данных, сосредоточенный на пространственных отношениях, путем повторной подписи 6 миллионов изображений из 4 широко используемых наборов данных видео-восприятия. Через трехкратную оценку и анализ, мы обнаружили, что SPRIGHT в значительной степени улучшает существующие наборы данных в улавливании пространственных отношений. Для демонстрации его эффективности мы используем всего ~0.25% SPRIGHT и добиваемся улучшения на 22% в создании пространственно точных изображений, а также улучшения показателей FID и CMMD. Во-вторых, мы обнаружили, что обучение на изображениях, содержащих большое количество объектов, приводит к существенному улучшению пространственной согласованности. Значительно, мы достигли современного уровня на T2I-CompBench с пространственным показателем 0.2133, путем донастройки на <500 изображениях. Наконец, через ряд контролируемых экспериментов и абляций, мы документируем несколько результатов, которые, по нашему мнению, улучшат понимание факторов, влияющих на пространственную согласованность в моделях текст в изображение. Мы публично выпускаем наш набор данных и модель для поощрения дальнейших исследований в этой области.
English
One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. First, we find that current vision-language datasets do not represent spatial relationships well enough; to alleviate this bottleneck, we create SPRIGHT, the first spatially-focused, large scale dataset, by re-captioning 6 million images from 4 widely used vision datasets. Through a 3-fold evaluation and analysis pipeline, we find that SPRIGHT largely improves upon existing datasets in capturing spatial relationships. To demonstrate its efficacy, we leverage only ~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially accurate images while also improving the FID and CMMD scores. Secondly, we find that training on images containing a large number of objects results in substantial improvements in spatial consistency. Notably, we attain state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Finally, through a set of controlled experiments and ablations, we document multiple findings that we believe will enhance the understanding of factors that affect spatial consistency in text-to-image models. We publicly release our dataset and model to foster further research in this area.

Summary

AI-Generated Summary

PDF323November 26, 2024