ChatPaper.aiChatPaper

Generatieve Fotomontering

Generative Photomontage

August 13, 2024
Auteurs: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI

Samenvatting

Tekst-naar-beeldmodellen zijn krachtige hulpmiddelen voor het creëren van afbeeldingen. Het generatieproces is echter vergelijkbaar met het rollen van een dobbelsteen, waardoor het moeilijk is om één afbeelding te verkrijgen die alles vastlegt wat een gebruiker wil. In dit artikel stellen we een raamwerk voor om de gewenste afbeelding te creëren door deze samen te stellen uit verschillende delen van gegenereerde afbeeldingen, in feite een Generatieve Fotomontering vormend. Gegeven een stapel afbeeldingen gegenereerd door ControlNet met dezelfde invoervoorwaarde en verschillende seeds, laten we gebruikers gewenste delen selecteren uit de gegenereerde resultaten met behulp van een penseelstreekinterface. We introduceren een nieuwe techniek die de penseelstreken van de gebruiker inleest, de gegenereerde afbeeldingen segmenteert met behulp van een grafiekgebaseerde optimalisatie in diffusiekenmerkruimte, en vervolgens de gesegmenteerde regio's samenvoegt via een nieuwe kenmerkruimte-blendmethode. Onze methode behoudt trouw de door de gebruiker geselecteerde regio's terwijl ze harmonieus worden samengevoegd. We demonstreren dat ons flexibele raamwerk voor veel toepassingen kan worden gebruikt, waaronder het genereren van nieuwe uiterlijke combinaties, het corrigeren van onjuiste vormen en artefacten, en het verbeteren van promptafstemming. We tonen overtuigende resultaten voor elke toepassing en demonstreren dat onze methode superieur is aan bestaande beeldblendmethoden en verschillende baselines.
English
Text-to-image models are powerful tools for image creation. However, the generation process is akin to a dice roll and makes it difficult to achieve a single image that captures everything a user wants. In this paper, we propose a framework for creating the desired image by compositing it from various parts of generated images, in essence forming a Generative Photomontage. Given a stack of images generated by ControlNet using the same input condition and different seeds, we let users select desired parts from the generated results using a brush stroke interface. We introduce a novel technique that takes in the user's brush strokes, segments the generated images using a graph-based optimization in diffusion feature space, and then composites the segmented regions via a new feature-space blending method. Our method faithfully preserves the user-selected regions while compositing them harmoniously. We demonstrate that our flexible framework can be used for many applications, including generating new appearance combinations, fixing incorrect shapes and artifacts, and improving prompt alignment. We show compelling results for each application and demonstrate that our method outperforms existing image blending methods and various baselines.
PDF212November 28, 2024