ChatPaper.aiChatPaper

Generative Fotomontage

Generative Photomontage

August 13, 2024
Autoren: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI

Zusammenfassung

Text-zu-Bild-Modelle sind leistungsstarke Werkzeuge zur Bildgenerierung. Allerdings ähnelt der Generierungsprozess einem Würfelwurf und erschwert es, ein einzelnes Bild zu erzeugen, das alles einfängt, was ein Benutzer möchte. In diesem Paper schlagen wir ein Framework zur Erstellung des gewünschten Bildes vor, indem wir es aus verschiedenen Teilen von generierten Bildern zusammensetzen, im Wesentlichen ein Generatives Fotomontage. Ausgehend von einem Stapel von Bildern, die von ControlNet unter Verwendung derselben Eingangsbedingung und verschiedenen Seeds generiert wurden, lassen wir Benutzer gewünschte Teile aus den generierten Ergebnissen mithilfe einer Pinselstrich-Schnittstelle auswählen. Wir stellen eine neuartige Technik vor, die die Pinselstriche des Benutzers annimmt, die generierten Bilder in diffusion feature space segmentiert und dann die segmentierten Regionen über eine neue Feature-Space-Blending-Methode zusammensetzt. Unsere Methode bewahrt die vom Benutzer ausgewählten Regionen treu, während sie diese harmonisch zusammensetzt. Wir zeigen, dass unser flexibles Framework für viele Anwendungen verwendet werden kann, darunter die Generierung neuer Erscheinungskombinationen, das Beheben falscher Formen und Artefakte sowie die Verbesserung der Prompt-Ausrichtung. Wir präsentieren überzeugende Ergebnisse für jede Anwendung und zeigen, dass unsere Methode bestehende Bild-Blending-Methoden und verschiedene Baselines übertrifft.
English
Text-to-image models are powerful tools for image creation. However, the generation process is akin to a dice roll and makes it difficult to achieve a single image that captures everything a user wants. In this paper, we propose a framework for creating the desired image by compositing it from various parts of generated images, in essence forming a Generative Photomontage. Given a stack of images generated by ControlNet using the same input condition and different seeds, we let users select desired parts from the generated results using a brush stroke interface. We introduce a novel technique that takes in the user's brush strokes, segments the generated images using a graph-based optimization in diffusion feature space, and then composites the segmented regions via a new feature-space blending method. Our method faithfully preserves the user-selected regions while compositing them harmoniously. We demonstrate that our flexible framework can be used for many applications, including generating new appearance combinations, fixing incorrect shapes and artifacts, and improving prompt alignment. We show compelling results for each application and demonstrate that our method outperforms existing image blending methods and various baselines.

Summary

AI-Generated Summary

PDF212November 28, 2024