Fotomontagem Generativa
Generative Photomontage
August 13, 2024
Autores: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI
Resumo
Os modelos de texto para imagem são ferramentas poderosas para a criação de imagens. No entanto, o processo de geração é semelhante a um lançamento de dados e torna difícil alcançar uma única imagem que capture tudo o que o usuário deseja. Neste artigo, propomos um framework para criar a imagem desejada compondo-a a partir de várias partes de imagens geradas, essencialmente formando um Fotomontagem Generativo. Dado um conjunto de imagens geradas pelo ControlNet usando a mesma condição de entrada e diferentes sementes, permitimos que os usuários selecionem partes desejadas dos resultados gerados usando uma interface de pincel. Introduzimos uma técnica inovadora que leva em consideração os traços do pincel do usuário, segmenta as imagens geradas usando uma otimização baseada em grafo no espaço de características de difusão e, em seguida, compõe as regiões segmentadas por meio de um novo método de mistura de espaço de características. Nosso método preserva fielmente as regiões selecionadas pelo usuário enquanto as compõe harmoniosamente. Demonstramos que nosso framework flexível pode ser usado para muitas aplicações, incluindo a geração de novas combinações de aparência, correção de formas e artefatos incorretos e melhoria no alinhamento da solicitação. Mostramos resultados convincentes para cada aplicação e demonstramos que nosso método supera os métodos existentes de mistura de imagens e várias linhas de base.
English
Text-to-image models are powerful tools for image creation. However, the
generation process is akin to a dice roll and makes it difficult to achieve a
single image that captures everything a user wants. In this paper, we propose a
framework for creating the desired image by compositing it from various parts
of generated images, in essence forming a Generative Photomontage. Given a
stack of images generated by ControlNet using the same input condition and
different seeds, we let users select desired parts from the generated results
using a brush stroke interface. We introduce a novel technique that takes in
the user's brush strokes, segments the generated images using a graph-based
optimization in diffusion feature space, and then composites the segmented
regions via a new feature-space blending method. Our method faithfully
preserves the user-selected regions while compositing them harmoniously. We
demonstrate that our flexible framework can be used for many applications,
including generating new appearance combinations, fixing incorrect shapes and
artifacts, and improving prompt alignment. We show compelling results for each
application and demonstrate that our method outperforms existing image blending
methods and various baselines.