ChatPaper.aiChatPaper

Fotomontaggio Generativo

Generative Photomontage

August 13, 2024
Autori: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI

Abstract

I modelli text-to-image sono strumenti potenti per la creazione di immagini. Tuttavia, il processo di generazione è simile a un lancio di dadi e rende difficile ottenere una singola immagine che catturi tutto ciò che un utente desidera. In questo articolo, proponiamo un framework per creare l'immagine desiderata componendola da varie parti di immagini generate, formando essenzialmente un Fotomontaggio Generativo. Dato un insieme di immagini generate da ControlNet utilizzando la stessa condizione di input e semi diversi, permettiamo agli utenti di selezionare le parti desiderate dai risultati generati utilizzando un'interfaccia a tratto di pennello. Introduciamo una tecnica innovativa che prende i tratti di pennello dell'utente, segmenta le immagini generate utilizzando un'ottimizzazione basata su grafo nello spazio delle feature di diffusione, e poi compone le regioni segmentate tramite un nuovo metodo di fusione nello spazio delle feature. Il nostro metodo preserva fedelmente le regioni selezionate dall'utente componendole in modo armonioso. Dimostriamo che il nostro framework flessibile può essere utilizzato per molte applicazioni, tra cui la generazione di nuove combinazioni di aspetto, la correzione di forme e artefatti errati, e il miglioramento dell'allineamento al prompt. Mostriamo risultati convincenti per ciascuna applicazione e dimostriamo che il nostro metodo supera i metodi esistenti di fusione di immagini e varie baseline.
English
Text-to-image models are powerful tools for image creation. However, the generation process is akin to a dice roll and makes it difficult to achieve a single image that captures everything a user wants. In this paper, we propose a framework for creating the desired image by compositing it from various parts of generated images, in essence forming a Generative Photomontage. Given a stack of images generated by ControlNet using the same input condition and different seeds, we let users select desired parts from the generated results using a brush stroke interface. We introduce a novel technique that takes in the user's brush strokes, segments the generated images using a graph-based optimization in diffusion feature space, and then composites the segmented regions via a new feature-space blending method. Our method faithfully preserves the user-selected regions while compositing them harmoniously. We demonstrate that our flexible framework can be used for many applications, including generating new appearance combinations, fixing incorrect shapes and artifacts, and improving prompt alignment. We show compelling results for each application and demonstrate that our method outperforms existing image blending methods and various baselines.
PDF202November 28, 2024