ChatPaper.aiChatPaper

Самоконтролируемая диффузия для управляемой генерации изображений

Diffusion Self-Guidance for Controllable Image Generation

June 1, 2023
Авторы: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI

Аннотация

Крупномасштабные генеративные модели способны создавать высококачественные изображения на основе детальных текстовых описаний. Однако многие аспекты изображения сложно или невозможно передать через текст. Мы представляем метод самоконтроля, который обеспечивает более точное управление генерируемыми изображениями, направляя внутренние представления диффузионных моделей. Мы демонстрируем, что такие свойства, как форма, расположение и внешний вид объектов, могут быть извлечены из этих представлений и использованы для управления процессом сэмплирования. Самоконтроль работает аналогично управлению с помощью классификатора, но использует сигналы, присутствующие в самой предобученной модели, не требуя дополнительных моделей или обучения. Мы показываем, как простой набор свойств может быть объединен для выполнения сложных манипуляций с изображениями, таких как изменение положения или размера объектов, объединение внешнего вида объектов из одного изображения с композицией другого, сборка объектов из множества изображений в одно и многое другое. Мы также демонстрируем, что самоконтроль может быть использован для редактирования реальных изображений. Для результатов и интерактивной демонстрации посетите нашу страницу проекта: https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
PDF20December 15, 2024