Fotomontagem Generativa

Resumo

Os modelos de texto para imagem são ferramentas poderosas para a criação de imagens. No entanto, o processo de geração é semelhante a um lançamento de dados e torna difícil alcançar uma única imagem que capture tudo o que o usuário deseja. Neste artigo, propomos um framework para criar a imagem desejada compondo-a a partir de várias partes de imagens geradas, essencialmente formando um Fotomontagem Generativo. Dado um conjunto de imagens geradas pelo ControlNet usando a mesma condição de entrada e diferentes sementes, permitimos que os usuários selecionem partes desejadas dos resultados gerados usando uma interface de pincel. Introduzimos uma técnica inovadora que leva em consideração os traços do pincel do usuário, segmenta as imagens geradas usando uma otimização baseada em grafo no espaço de características de difusão e, em seguida, compõe as regiões segmentadas por meio de um novo método de mistura de espaço de características. Nosso método preserva fielmente as regiões selecionadas pelo usuário enquanto as compõe harmoniosamente. Demonstramos que nosso framework flexível pode ser usado para muitas aplicações, incluindo a geração de novas combinações de aparência, correção de formas e artefatos incorretos e melhoria no alinhamento da solicitação. Mostramos resultados convincentes para cada aplicação e demonstramos que nosso método supera os métodos existentes de mistura de imagens e várias linhas de base.

English

Text-to-image models are powerful tools for image creation. However, the generation process is akin to a dice roll and makes it difficult to achieve a single image that captures everything a user wants. In this paper, we propose a framework for creating the desired image by compositing it from various parts of generated images, in essence forming a Generative Photomontage. Given a stack of images generated by ControlNet using the same input condition and different seeds, we let users select desired parts from the generated results using a brush stroke interface. We introduce a novel technique that takes in the user's brush strokes, segments the generated images using a graph-based optimization in diffusion feature space, and then composites the segmented regions via a new feature-space blending method. Our method faithfully preserves the user-selected regions while compositing them harmoniously. We demonstrate that our flexible framework can be used for many applications, including generating new appearance combinations, fixing incorrect shapes and artifacts, and improving prompt alignment. We show compelling results for each application and demonstrate that our method outperforms existing image blending methods and various baselines.