ChatPaper.aiChatPaper

Нулевой сценарий пространственного расположения для диффузионных моделей генерации изображений по тексту

Zero-shot spatial layout conditioning for text-to-image diffusion models

June 23, 2023
Авторы: Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek
cs.AI

Аннотация

Крупномасштабные диффузионные модели для генерации изображений из текста значительно улучшили современное состояние в области генеративного моделирования изображений и предоставляют интуитивно понятный и мощный интерфейс для управления процессом создания изображений. Однако выражение пространственных ограничений, например, для размещения конкретных объектов в определённых местах, с помощью текста является сложной задачей, и текущие модели генерации изображений на основе текста не способны точно следовать таким инструкциям. В данной работе мы рассматриваем генерацию изображений из текста, связанного с сегментами на холсте изображения, что сочетает интуитивный интерфейс на естественном языке с точным пространственным контролем над создаваемым контентом. Мы предлагаем ZestGuide — подход с нулевым обучением для сегментационного управления, который может быть интегрирован в предварительно обученные диффузионные модели для генерации изображений из текста и не требует дополнительного обучения. Этот метод использует неявные карты сегментации, которые могут быть извлечены из кросс-внимательных слоёв, и применяет их для согласования генерации с входными масками. Наши экспериментальные результаты сочетают высокое качество изображений с точным соответствием созданного контента входным сегментациям и превосходят предыдущие работы как количественно, так и качественно, включая методы, требующие обучения на изображениях с соответствующими сегментациями. По сравнению с Paint with Words, предыдущим передовым методом генерации изображений с условием сегментации без обучения, мы улучшаем результаты на 5–10 пунктов mIoU на наборе данных COCO при схожих значениях FID.
English
Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image generation process. Expressing spatial constraints, e.g. to position specific objects in particular locations, is cumbersome using text; and current text-based image generation models are not able to accurately follow such instructions. In this paper we consider image generation from text associated with segments on the image canvas, which combines an intuitive natural language interface with precise spatial control over the generated content. We propose ZestGuide, a zero-shot segmentation guidance approach that can be plugged into pre-trained text-to-image diffusion models, and does not require any additional training. It leverages implicit segmentation maps that can be extracted from cross-attention layers, and uses them to align the generation with input masks. Our experimental results combine high image quality with accurate alignment of generated content with input segmentations, and improve over prior work both quantitatively and qualitatively, including methods that require training on images with corresponding segmentations. Compared to Paint with Words, the previous state-of-the art in image generation with zero-shot segmentation conditioning, we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.
PDF61December 15, 2024