Distillazione di Consistenza Invertibile per la Modifica di Immagini Guidata da Testo in Circa 7 Passaggi

Abstract

La distillazione di diffusione rappresenta una direzione estremamente promettente per ottenere una generazione fedele da testo a immagine in pochi passaggi di campionamento. Tuttavia, nonostante i recenti successi, i modelli distillati esistenti non offrono ancora l'intero spettro delle capacità di diffusione, come l'inversione di immagini reali, che abilita molti metodi precisi di manipolazione delle immagini. Questo lavoro mira ad arricchire i modelli di diffusione distillati da testo a immagine con la capacità di codificare efficacemente immagini reali nel loro spazio latente. A tal fine, introduciamo la Distillazione di Consistenza Invertibile (iCD), un framework generalizzato di distillazione di consistenza che facilita sia la sintesi di immagini di alta qualità che la codifica accurata delle immagini in soli 3-4 passaggi di inferenza. Sebbene il problema dell'inversione per i modelli di diffusione da testo a immagine sia aggravato da alti valori di guida senza classificatore, notiamo che una guida dinamica riduce significativamente gli errori di ricostruzione senza un degrado evidente nelle prestazioni di generazione. Di conseguenza, dimostriamo che l'iCD equipaggiata con guida dinamica può servire come uno strumento altamente efficace per l'editing di immagini guidato da testo in modalità zero-shot, competendo con alternative più costose all'avanguardia.

English

Diffusion distillation represents a highly promising direction for achieving faithful text-to-image generation in a few sampling steps. However, despite recent successes, existing distilled models still do not provide the full spectrum of diffusion abilities, such as real image inversion, which enables many precise image manipulation methods. This work aims to enrich distilled text-to-image diffusion models with the ability to effectively encode real images into their latent space. To this end, we introduce invertible Consistency Distillation (iCD), a generalized consistency distillation framework that facilitates both high-quality image synthesis and accurate image encoding in only 3-4 inference steps. Though the inversion problem for text-to-image diffusion models gets exacerbated by high classifier-free guidance scales, we notice that dynamic guidance significantly reduces reconstruction errors without noticeable degradation in generation performance. As a result, we demonstrate that iCD equipped with dynamic guidance may serve as a highly effective tool for zero-shot text-guided image editing, competing with more expensive state-of-the-art alternatives.

Distillazione di Consistenza Invertibile per la Modifica di Immagini Guidata da Testo in Circa 7 Passaggi

Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

Abstract

Support