ChatPaper.aiChatPaper

TurboEdit: Edición de Imágenes Basada en Texto Utilizando Modelos de Difusión de Pocos Pasos

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

August 1, 2024
Autores: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI

Resumen

Los modelos de difusión han abierto el camino a una amplia gama de marcos de edición de imágenes basados en texto. Sin embargo, estos suelen basarse en la naturaleza de múltiples pasos del proceso de difusión hacia atrás, y adaptarlos a métodos de muestreo rápido y destilado ha resultado sorprendentemente desafiante. Aquí nos enfocamos en una línea popular de marcos de edición basados en texto: el enfoque de inversión de ruido DDPM-noise "amigable para la edición". Analizamos su aplicación a métodos de muestreo rápido y categorizamos sus fallos en dos clases: la aparición de artefactos visuales y una fuerza de edición insuficiente. Rastreamos los artefactos hasta estadísticas de ruido desiguales entre ruidos invertidos y el programa de ruido esperado, y sugerimos un programa de ruido desplazado que corrige este desfase. Para aumentar la fuerza de edición, proponemos un enfoque de pseudo-guía que aumenta eficientemente la magnitud de las ediciones sin introducir nuevos artefactos. En resumen, nuestro método permite la edición de imágenes basada en texto con tan solo tres pasos de difusión, a la vez que proporciona nuevas perspectivas sobre los mecanismos detrás de enfoques populares de edición basados en texto.
English
Diffusion models have opened the path to a wide range of text-based image editing frameworks. However, these typically build on the multi-step nature of the diffusion backwards process, and adapting them to distilled, fast-sampling methods has proven surprisingly challenging. Here, we focus on a popular line of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion approach. We analyze its application to fast sampling methods and categorize its failures into two classes: the appearance of visual artifacts, and insufficient editing strength. We trace the artifacts to mismatched noise statistics between inverted noises and the expected noise schedule, and suggest a shifted noise schedule which corrects for this offset. To increase editing strength, we propose a pseudo-guidance approach that efficiently increases the magnitude of edits without introducing new artifacts. All in all, our method enables text-based image editing with as few as three diffusion steps, while providing novel insights into the mechanisms behind popular text-based editing approaches.
PDF172November 28, 2024