Click2Mask: Lokale Bewerking met Dynamische Maskergeneratie
Click2Mask: Local Editing with Dynamic Mask Generation
September 12, 2024
Auteurs: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI
Samenvatting
Recente ontwikkelingen in generatieve modellen hebben de beeldgeneratie en -bewerking gerevolutioneerd, waardoor deze taken toegankelijk zijn geworden voor niet-experts. Dit artikel richt zich op lokale beeldbewerking, met name op de taak van het toevoegen van nieuwe inhoud aan een losjes gespecificeerd gebied. Bestaande methoden vereisen vaak een nauwkeurige masker of een gedetailleerde beschrijving van de locatie, wat omslachtig en foutgevoelig kan zijn. Wij stellen Click2Mask voor, een nieuw benadering die het lokale bewerkingsproces vereenvoudigt door alleen een enkel referentiepunt te vereisen (naast de inhoudsbeschrijving). Tijdens een Blended Latent Diffusion (BLD) proces wordt een masker dynamisch uitgebreid rond dit punt, geleid door een gemaskerd CLIP-gebaseerd semantisch verlies. Click2Mask overtreft de beperkingen van op segmentatie gebaseerde en afhankelijke methoden voor fijnafstemming, en biedt een meer gebruiksvriendelijke en contextueel nauwkeurige oplossing. Onze experimenten tonen aan dat Click2Mask niet alleen de inspanning van de gebruiker minimaliseert, maar ook competitieve of superieure resultaten levert voor lokale beeldmanipulatie in vergelijking met state-of-the-art methoden, volgens zowel menselijke beoordeling als automatische metrieken. Belangrijke bijdragen zijn onder meer de vereenvoudiging van gebruikersinvoer, de mogelijkheid om objecten vrij toe te voegen zonder beperkingen van bestaande segmenten, en het integratiepotentieel van onze dynamische maskerbenadering binnen andere bewerkingsmethoden.
English
Recent advancements in generative models have revolutionized image generation
and editing, making these tasks accessible to non-experts. This paper focuses
on local image editing, particularly the task of adding new content to a
loosely specified area. Existing methods often require a precise mask or a
detailed description of the location, which can be cumbersome and prone to
errors. We propose Click2Mask, a novel approach that simplifies the local
editing process by requiring only a single point of reference (in addition to
the content description). A mask is dynamically grown around this point during
a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based
semantic loss. Click2Mask surpasses the limitations of segmentation-based and
fine-tuning dependent methods, offering a more user-friendly and contextually
accurate solution. Our experiments demonstrate that Click2Mask not only
minimizes user effort but also delivers competitive or superior local image
manipulation results compared to SoTA methods, according to both human
judgement and automatic metrics. Key contributions include the simplification
of user input, the ability to freely add objects unconstrained by existing
segments, and the integration potential of our dynamic mask approach within
other editing methods.Summary
AI-Generated Summary