Click2Mask : Édition Locale avec Génération Dynamique de Masque
Click2Mask: Local Editing with Dynamic Mask Generation
September 12, 2024
Auteurs: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI
Résumé
Les récentes avancées dans les modèles génératifs ont révolutionné la génération et l'édition d'images, rendant ces tâches accessibles aux non-experts. Cet article se concentre sur l'édition locale d'images, en particulier sur la tâche d'ajout de nouveau contenu à une zone vaguement spécifiée. Les méthodes existantes nécessitent souvent un masque précis ou une description détaillée de l'emplacement, ce qui peut être fastidieux et sujet aux erreurs. Nous proposons Click2Mask, une approche novatrice qui simplifie le processus d'édition locale en ne nécessitant qu'un seul point de référence (en plus de la description du contenu). Un masque est dynamiquement étendu autour de ce point lors d'un processus de diffusion latente mélangée (BLD), guidé par une perte sémantique basée sur CLIP masqué. Click2Mask surmonte les limitations des méthodes basées sur la segmentation et dépendantes du fine-tuning, offrant une solution plus conviviale et contextuellement précise. Nos expériences démontrent que Click2Mask réduit non seulement les efforts de l'utilisateur, mais fournit également des résultats de manipulation d'images locaux compétitifs ou supérieurs par rapport aux méthodes de pointe, selon à la fois le jugement humain et les mesures automatiques. Les contributions clés comprennent la simplification de l'entrée utilisateur, la capacité d'ajouter librement des objets sans contrainte par des segments existants, et le potentiel d'intégration de notre approche de masque dynamique dans d'autres méthodes d'édition.
English
Recent advancements in generative models have revolutionized image generation
and editing, making these tasks accessible to non-experts. This paper focuses
on local image editing, particularly the task of adding new content to a
loosely specified area. Existing methods often require a precise mask or a
detailed description of the location, which can be cumbersome and prone to
errors. We propose Click2Mask, a novel approach that simplifies the local
editing process by requiring only a single point of reference (in addition to
the content description). A mask is dynamically grown around this point during
a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based
semantic loss. Click2Mask surpasses the limitations of segmentation-based and
fine-tuning dependent methods, offering a more user-friendly and contextually
accurate solution. Our experiments demonstrate that Click2Mask not only
minimizes user effort but also delivers competitive or superior local image
manipulation results compared to SoTA methods, according to both human
judgement and automatic metrics. Key contributions include the simplification
of user input, the ability to freely add objects unconstrained by existing
segments, and the integration potential of our dynamic mask approach within
other editing methods.Summary
AI-Generated Summary