Fotomontaje Generativo
Generative Photomontage
August 13, 2024
Autores: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI
Resumen
Los modelos de texto a imagen son herramientas poderosas para la creación de imágenes. Sin embargo, el proceso de generación es similar a un lanzamiento de dados y dificulta lograr una sola imagen que capture todo lo que un usuario desea. En este documento, proponemos un marco de trabajo para crear la imagen deseada componiéndola a partir de varias partes de imágenes generadas, formando en esencia un Fotomontaje Generativo. Dado un conjunto de imágenes generadas por ControlNet utilizando la misma condición de entrada y diferentes semillas, permitimos a los usuarios seleccionar las partes deseadas de los resultados generados utilizando una interfaz de pincel. Introducimos una técnica novedosa que toma los trazos del pincel del usuario, segmenta las imágenes generadas utilizando una optimización basada en grafos en el espacio de características de difusión, y luego compone las regiones segmentadas mediante un nuevo método de mezcla en el espacio de características. Nuestro método preserva fielmente las regiones seleccionadas por el usuario mientras las compone armónicamente. Demostramos que nuestro marco flexible puede ser utilizado para muchas aplicaciones, incluyendo la generación de nuevas combinaciones de apariencia, corrigiendo formas y artefactos incorrectos, y mejorando el alineamiento de las indicaciones. Mostramos resultados convincentes para cada aplicación y demostramos que nuestro método supera a los métodos existentes de mezcla de imágenes y a varias líneas base.
English
Text-to-image models are powerful tools for image creation. However, the
generation process is akin to a dice roll and makes it difficult to achieve a
single image that captures everything a user wants. In this paper, we propose a
framework for creating the desired image by compositing it from various parts
of generated images, in essence forming a Generative Photomontage. Given a
stack of images generated by ControlNet using the same input condition and
different seeds, we let users select desired parts from the generated results
using a brush stroke interface. We introduce a novel technique that takes in
the user's brush strokes, segments the generated images using a graph-based
optimization in diffusion feature space, and then composites the segmented
regions via a new feature-space blending method. Our method faithfully
preserves the user-selected regions while compositing them harmoniously. We
demonstrate that our flexible framework can be used for many applications,
including generating new appearance combinations, fixing incorrect shapes and
artifacts, and improving prompt alignment. We show compelling results for each
application and demonstrate that our method outperforms existing image blending
methods and various baselines.Summary
AI-Generated Summary