ChatPaper.aiChatPaper

LIME: Edición Localizada de Imágenes mediante Regularización de Atención en Modelos de Difusión

LIME: Localized Image Editing via Attention Regularization in Diffusion Models

December 14, 2023
Autores: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Resumen

Los modelos de difusión (DMs) han ganado prominencia debido a su capacidad para generar imágenes de alta calidad y variadas, con avances recientes en la generación de texto a imagen. El enfoque de investigación se está desplazando ahora hacia la controlabilidad de los DMs. Un desafío significativo en este ámbito es la edición localizada, donde se modifican áreas específicas de una imagen sin afectar el resto del contenido. Este artículo presenta LIME para la edición localizada de imágenes en modelos de difusión que no requieren regiones de interés (RoI) especificadas por el usuario ni entradas de texto adicionales. Nuestro método emplea características de métodos preentrenados y una técnica simple de agrupamiento para obtener mapas de segmentación semántica precisos. Luego, al aprovechar mapas de atención cruzada, refina estos segmentos para realizar ediciones localizadas. Finalmente, proponemos una novedosa técnica de regularización de atención cruzada que penaliza las puntuaciones de atención cruzada no relacionadas en la RoI durante los pasos de eliminación de ruido, asegurando ediciones localizadas. Nuestro enfoque, sin necesidad de reentrenamiento o ajuste fino, mejora consistentemente el rendimiento de los métodos existentes en varios benchmarks de edición.
English
Diffusion models (DMs) have gained prominence due to their ability to generate high-quality, varied images, with recent advancements in text-to-image generation. The research focus is now shifting towards the controllability of DMs. A significant challenge within this domain is localized editing, where specific areas of an image are modified without affecting the rest of the content. This paper introduces LIME for localized image editing in diffusion models that do not require user-specified regions of interest (RoI) or additional text input. Our method employs features from pre-trained methods and a simple clustering technique to obtain precise semantic segmentation maps. Then, by leveraging cross-attention maps, it refines these segments for localized edits. Finally, we propose a novel cross-attention regularization technique that penalizes unrelated cross-attention scores in the RoI during the denoising steps, ensuring localized edits. Our approach, without re-training and fine-tuning, consistently improves the performance of existing methods in various editing benchmarks.
PDF124December 15, 2024