Distillazione di Consistenza Invertibile per la Modifica di Immagini Guidata da Testo in Circa 7 Passaggi
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps
June 20, 2024
Autori: Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk
cs.AI
Abstract
La distillazione di diffusione rappresenta una direzione estremamente promettente per ottenere una generazione fedele da testo a immagine in pochi passaggi di campionamento. Tuttavia, nonostante i recenti successi, i modelli distillati esistenti non offrono ancora l'intero spettro delle capacità di diffusione, come l'inversione di immagini reali, che abilita molti metodi precisi di manipolazione delle immagini. Questo lavoro mira ad arricchire i modelli di diffusione distillati da testo a immagine con la capacità di codificare efficacemente immagini reali nel loro spazio latente. A tal fine, introduciamo la Distillazione di Consistenza Invertibile (iCD), un framework generalizzato di distillazione di consistenza che facilita sia la sintesi di immagini di alta qualità che la codifica accurata delle immagini in soli 3-4 passaggi di inferenza. Sebbene il problema dell'inversione per i modelli di diffusione da testo a immagine sia aggravato da alti valori di guida senza classificatore, notiamo che una guida dinamica riduce significativamente gli errori di ricostruzione senza un degrado evidente nelle prestazioni di generazione. Di conseguenza, dimostriamo che l'iCD equipaggiata con guida dinamica può servire come uno strumento altamente efficace per l'editing di immagini guidato da testo in modalità zero-shot, competendo con alternative più costose all'avanguardia.
English
Diffusion distillation represents a highly promising direction for achieving
faithful text-to-image generation in a few sampling steps. However, despite
recent successes, existing distilled models still do not provide the full
spectrum of diffusion abilities, such as real image inversion, which enables
many precise image manipulation methods. This work aims to enrich distilled
text-to-image diffusion models with the ability to effectively encode real
images into their latent space. To this end, we introduce invertible
Consistency Distillation (iCD), a generalized consistency distillation
framework that facilitates both high-quality image synthesis and accurate image
encoding in only 3-4 inference steps. Though the inversion problem for
text-to-image diffusion models gets exacerbated by high classifier-free
guidance scales, we notice that dynamic guidance significantly reduces
reconstruction errors without noticeable degradation in generation performance.
As a result, we demonstrate that iCD equipped with dynamic guidance may serve
as a highly effective tool for zero-shot text-guided image editing, competing
with more expensive state-of-the-art alternatives.