TurboEdit: Edição de Imagens Baseada em Texto Usando Modelos de Difusão em Poucas Etapas
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
August 1, 2024
Autores: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI
Resumo
Os modelos de difusão abriram caminho para uma ampla gama de estruturas de edição de imagens baseadas em texto. No entanto, essas geralmente se baseiam na natureza multi-etapa do processo de difusão reversa e adaptá-las a métodos de amostragem rápida e destilada tem se mostrado surpreendentemente desafiador. Aqui, focamos em uma linha popular de estruturas de edição baseadas em texto - a abordagem de inversão de ruído DDPM "amigável à edição". Analisamos sua aplicação a métodos de amostragem rápida e categorizamos suas falhas em duas classes: a aparição de artefatos visuais e a falta de força de edição suficiente. Rastreamos os artefatos até estatísticas de ruído incompatíveis entre ruídos invertidos e o cronograma de ruído esperado, e sugerimos um cronograma de ruído deslocado que corrige esse desvio. Para aumentar a força de edição, propomos uma abordagem de pseudo-guiamento que aumenta eficientemente a magnitude das edições sem introduzir novos artefatos. No geral, nosso método permite a edição de imagens baseada em texto com apenas três etapas de difusão, ao mesmo tempo em que fornece novas perspectivas sobre os mecanismos por trás das abordagens populares de edição baseadas em texto.
English
Diffusion models have opened the path to a wide range of text-based image
editing frameworks. However, these typically build on the multi-step nature of
the diffusion backwards process, and adapting them to distilled, fast-sampling
methods has proven surprisingly challenging. Here, we focus on a popular line
of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion
approach. We analyze its application to fast sampling methods and categorize
its failures into two classes: the appearance of visual artifacts, and
insufficient editing strength. We trace the artifacts to mismatched noise
statistics between inverted noises and the expected noise schedule, and suggest
a shifted noise schedule which corrects for this offset. To increase editing
strength, we propose a pseudo-guidance approach that efficiently increases the
magnitude of edits without introducing new artifacts. All in all, our method
enables text-based image editing with as few as three diffusion steps, while
providing novel insights into the mechanisms behind popular text-based editing
approaches.