TurboEdit : Édition d'images basée sur le texte à l'aide de modèles de diffusion en quelques étapes
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
August 1, 2024
Auteurs: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI
Résumé
Les modèles de diffusion ont ouvert la voie à une large gamme de cadres d'édition d'images basés sur le texte. Cependant, ces approches s'appuient généralement sur la nature multi-étapes du processus de diffusion inverse, et leur adaptation à des méthodes de sampling rapide et distillé s'est avérée étonnamment difficile. Ici, nous nous concentrons sur une ligne populaire de cadres d'édition basés sur le texte - l'approche d'inversion de bruit DDPM dite « edit-friendly ». Nous analysons son application aux méthodes de sampling rapide et catégorisons ses échecs en deux classes : l'apparition d'artefacts visuels et une force d'édition insuffisante. Nous attribuons les artefacts à une inadéquation des statistiques de bruit entre les bruits inversés et le calendrier de bruit attendu, et suggérons un calendrier de bruit décalé qui corrige cet écart. Pour augmenter la force d'édition, nous proposons une approche de pseudo-guidage qui augmente efficacement l'amplitude des modifications sans introduire de nouveaux artefacts. Au final, notre méthode permet l'édition d'images basée sur le texte avec aussi peu que trois étapes de diffusion, tout en fournissant de nouvelles perspectives sur les mécanismes sous-jacents aux approches populaires d'édition basées sur le texte.
English
Diffusion models have opened the path to a wide range of text-based image
editing frameworks. However, these typically build on the multi-step nature of
the diffusion backwards process, and adapting them to distilled, fast-sampling
methods has proven surprisingly challenging. Here, we focus on a popular line
of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion
approach. We analyze its application to fast sampling methods and categorize
its failures into two classes: the appearance of visual artifacts, and
insufficient editing strength. We trace the artifacts to mismatched noise
statistics between inverted noises and the expected noise schedule, and suggest
a shifted noise schedule which corrects for this offset. To increase editing
strength, we propose a pseudo-guidance approach that efficiently increases the
magnitude of edits without introducing new artifacts. All in all, our method
enables text-based image editing with as few as three diffusion steps, while
providing novel insights into the mechanisms behind popular text-based editing
approaches.Summary
AI-Generated Summary