Photomontage génératif
Generative Photomontage
August 13, 2024
Auteurs: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI
Résumé
Les modèles de génération d'images à partir de texte sont des outils puissants pour la création d'images. Cependant, le processus de génération s'apparente à un lancer de dé, rendant difficile l'obtention d'une seule image capturant tout ce que l'utilisateur souhaite. Dans cet article, nous proposons un cadre pour créer l'image désirée en la composant à partir de diverses parties d'images générées, formant ainsi un Photomontage Générative. Étant donné une pile d'images générées par ControlNet en utilisant la même condition d'entrée et différentes graines, nous permettons aux utilisateurs de sélectionner les parties souhaitées parmi les résultats générés à l'aide d'une interface de tracé au pinceau. Nous introduisons une nouvelle technique qui prend en compte les tracés de l'utilisateur, segmente les images générées en utilisant une optimisation basée sur un graphe dans l'espace de caractéristiques de diffusion, puis compose les régions segmentées via une nouvelle méthode de fusion dans l'espace de caractéristiques. Notre méthode préserve fidèlement les régions sélectionnées par l'utilisateur tout en les composant harmonieusement. Nous démontrons que notre cadre flexible peut être utilisé pour de nombreuses applications, y compris la génération de nouvelles combinaisons d'apparence, la correction de formes incorrectes et d'artefacts, et l'amélioration de l'alignement avec l'invite. Nous présentons des résultats convaincants pour chaque application et montrons que notre méthode surpasse les méthodes de fusion d'images existantes et diverses approches de référence.
English
Text-to-image models are powerful tools for image creation. However, the
generation process is akin to a dice roll and makes it difficult to achieve a
single image that captures everything a user wants. In this paper, we propose a
framework for creating the desired image by compositing it from various parts
of generated images, in essence forming a Generative Photomontage. Given a
stack of images generated by ControlNet using the same input condition and
different seeds, we let users select desired parts from the generated results
using a brush stroke interface. We introduce a novel technique that takes in
the user's brush strokes, segments the generated images using a graph-based
optimization in diffusion feature space, and then composites the segmented
regions via a new feature-space blending method. Our method faithfully
preserves the user-selected regions while compositing them harmoniously. We
demonstrate that our flexible framework can be used for many applications,
including generating new appearance combinations, fixing incorrect shapes and
artifacts, and improving prompt alignment. We show compelling results for each
application and demonstrate that our method outperforms existing image blending
methods and various baselines.Summary
AI-Generated Summary