Click2Mask: Modifica Locale con Generazione Dinamica della Maschera
Click2Mask: Local Editing with Dynamic Mask Generation
September 12, 2024
Autori: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI
Abstract
I recenti progressi nei modelli generativi hanno rivoluzionato la generazione e la modifica di immagini, rendendo queste attività accessibili anche a non esperti. Questo articolo si concentra sulla modifica locale delle immagini, in particolare sul compito di aggiungere nuovo contenuto in un'area vagamente specificata. I metodi esistenti spesso richiedono una maschera precisa o una descrizione dettagliata della posizione, il che può essere ingombrante e soggetto a errori. Proponiamo Click2Mask, un nuovo approccio che semplifica il processo di modifica locale richiedendo solo un singolo punto di riferimento (oltre alla descrizione del contenuto). Una maschera viene dinamicamente espansa intorno a questo punto durante un processo di Diffusione Latente Miscelata (BLD), guidato da una perdita semantica basata su CLIP mascherato. Click2Mask supera i limiti dei metodi basati sulla segmentazione e dipendenti dal fine-tuning, offrendo una soluzione più user-friendly e accurata dal punto di vista contestuale. I nostri esperimenti dimostrano che Click2Mask non solo riduce al minimo lo sforzo dell'utente, ma fornisce anche risultati di manipolazione di immagini locali competitivi o superiori rispetto ai metodi SoTA, secondo sia il giudizio umano che le metriche automatiche. Le principali contribuzioni includono la semplificazione dell'input dell'utente, la capacità di aggiungere liberamente oggetti non vincolati da segmenti esistenti e il potenziale di integrazione del nostro approccio di maschera dinamica con altri metodi di modifica.
English
Recent advancements in generative models have revolutionized image generation
and editing, making these tasks accessible to non-experts. This paper focuses
on local image editing, particularly the task of adding new content to a
loosely specified area. Existing methods often require a precise mask or a
detailed description of the location, which can be cumbersome and prone to
errors. We propose Click2Mask, a novel approach that simplifies the local
editing process by requiring only a single point of reference (in addition to
the content description). A mask is dynamically grown around this point during
a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based
semantic loss. Click2Mask surpasses the limitations of segmentation-based and
fine-tuning dependent methods, offering a more user-friendly and contextually
accurate solution. Our experiments demonstrate that Click2Mask not only
minimizes user effort but also delivers competitive or superior local image
manipulation results compared to SoTA methods, according to both human
judgement and automatic metrics. Key contributions include the simplification
of user input, the ability to freely add objects unconstrained by existing
segments, and the integration potential of our dynamic mask approach within
other editing methods.Summary
AI-Generated Summary