Генеративный фотомонтаж
Generative Photomontage
August 13, 2024
Авторы: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI
Аннотация
Модели текст-в-изображение являются мощными инструментами для создания изображений. Однако процесс генерации схож с броском кубика и затрудняет достижение одного изображения, которое бы полностью удовлетворяло потребности пользователя. В данной статье мы предлагаем фреймворк для создания желаемого изображения путем его композиции из различных частей сгенерированных изображений, в сущности формируя Генеративный Фотомонтаж. Учитывая набор изображений, сгенерированных ControlNet с использованием одного и того же входного условия и различных сидов, мы позволяем пользователям выбирать желаемые части из результатов генерации с помощью интерфейса кисти. Мы представляем новую технику, которая принимает кисти пользователя, сегментирует сгенерированные изображения с использованием оптимизации на основе графа в пространстве диффузии признаков, а затем компонует сегментированные области с помощью нового метода смешивания в пространстве признаков. Наш метод верно сохраняет выбранные пользователем области, компонуя их гармонично. Мы демонстрируем, что наш гибкий фреймворк может быть использован для множества приложений, включая генерацию новых комбинаций внешности, исправление неправильных форм и артефактов, а также улучшение выравнивания запросов. Мы показываем убедительные результаты для каждого приложения и демонстрируем, что наш метод превосходит существующие методы смешивания изображений и различные базовые варианты.
English
Text-to-image models are powerful tools for image creation. However, the
generation process is akin to a dice roll and makes it difficult to achieve a
single image that captures everything a user wants. In this paper, we propose a
framework for creating the desired image by compositing it from various parts
of generated images, in essence forming a Generative Photomontage. Given a
stack of images generated by ControlNet using the same input condition and
different seeds, we let users select desired parts from the generated results
using a brush stroke interface. We introduce a novel technique that takes in
the user's brush strokes, segments the generated images using a graph-based
optimization in diffusion feature space, and then composites the segmented
regions via a new feature-space blending method. Our method faithfully
preserves the user-selected regions while compositing them harmoniously. We
demonstrate that our flexible framework can be used for many applications,
including generating new appearance combinations, fixing incorrect shapes and
artifacts, and improving prompt alignment. We show compelling results for each
application and demonstrate that our method outperforms existing image blending
methods and various baselines.Summary
AI-Generated Summary