Distillation de cohérence inversible pour l'édition d'images guidée par texte en environ 7 étapes
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps
June 20, 2024
Auteurs: Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk
cs.AI
Résumé
La distillation par diffusion représente une direction très prometteuse pour réaliser une génération fidèle d'images à partir de texte en quelques étapes d'échantillonnage. Cependant, malgré les récents succès, les modèles distillés existants ne fournissent toujours pas l'ensemble complet des capacités de diffusion, telles que l'inversion d'images réelles, qui permet de nombreuses méthodes de manipulation d'images précises. Ce travail vise à enrichir les modèles de diffusion distillés pour la génération d'images à partir de texte avec la capacité d'encoder efficacement des images réelles dans leur espace latent. À cette fin, nous introduisons la distillation de consistance inversible (iCD), un cadre généralisé de distillation de consistance qui facilite à la fois la synthèse d'images de haute qualité et l'encodage précis d'images en seulement 3-4 étapes d'inférence. Bien que le problème d'inversion pour les modèles de diffusion d'images à partir de texte soit exacerbé par des échelles élevées de guidage sans classifieur, nous remarquons qu'un guidage dynamique réduit significativement les erreurs de reconstruction sans dégradation notable des performances de génération. En conséquence, nous démontrons que l'iCD équipée d'un guidage dynamique peut servir d'outil très efficace pour l'édition d'images guidée par texte en zero-shot, rivalisant avec des alternatives plus coûteuses de pointe.
English
Diffusion distillation represents a highly promising direction for achieving
faithful text-to-image generation in a few sampling steps. However, despite
recent successes, existing distilled models still do not provide the full
spectrum of diffusion abilities, such as real image inversion, which enables
many precise image manipulation methods. This work aims to enrich distilled
text-to-image diffusion models with the ability to effectively encode real
images into their latent space. To this end, we introduce invertible
Consistency Distillation (iCD), a generalized consistency distillation
framework that facilitates both high-quality image synthesis and accurate image
encoding in only 3-4 inference steps. Though the inversion problem for
text-to-image diffusion models gets exacerbated by high classifier-free
guidance scales, we notice that dynamic guidance significantly reduces
reconstruction errors without noticeable degradation in generation performance.
As a result, we demonstrate that iCD equipped with dynamic guidance may serve
as a highly effective tool for zero-shot text-guided image editing, competing
with more expensive state-of-the-art alternatives.Summary
AI-Generated Summary