ChatPaper.aiChatPaper

Click2Mask: Edición Local con Generación Dinámica de Máscaras

Click2Mask: Local Editing with Dynamic Mask Generation

September 12, 2024
Autores: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI

Resumen

Los avances recientes en modelos generativos han revolucionado la generación y edición de imágenes, haciendo que estas tareas sean accesibles para no expertos. Este artículo se centra en la edición local de imágenes, particularmente en la tarea de añadir nuevo contenido a un área vagamente especificada. Los métodos existentes a menudo requieren una máscara precisa o una descripción detallada de la ubicación, lo cual puede ser engorroso y propenso a errores. Proponemos Click2Mask, un enfoque novedoso que simplifica el proceso de edición local al requerir solo un punto de referencia (además de la descripción del contenido). Una máscara se expande dinámicamente alrededor de este punto durante un proceso de Difusión Latente Mezclada (BLD), guiado por una pérdida semántica basada en CLIP enmascarado. Click2Mask supera las limitaciones de los métodos basados en segmentación y dependientes de ajustes finos, ofreciendo una solución más amigable para el usuario y contextualmente precisa. Nuestros experimentos demuestran que Click2Mask no solo minimiza el esfuerzo del usuario, sino que también ofrece resultados de manipulación de imágenes locales competitivos o superiores en comparación con los métodos de Estado del Arte, según el juicio humano y las métricas automáticas. Las contribuciones clave incluyen la simplificación de la entrada del usuario, la capacidad de añadir objetos libremente sin restricciones de segmentos existentes y el potencial de integración de nuestro enfoque de máscara dinámica dentro de otros métodos de edición.
English
Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also delivers competitive or superior local image manipulation results compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods.

Summary

AI-Generated Summary

PDF63November 16, 2024