ChatPaper.aiChatPaper

TurboEdit : Édition d'images basée sur le texte à l'aide de modèles de diffusion en quelques étapes

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

August 1, 2024
Auteurs: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI

Résumé

Les modèles de diffusion ont ouvert la voie à une large gamme de cadres d'édition d'images basés sur le texte. Cependant, ces approches s'appuient généralement sur la nature multi-étapes du processus de diffusion inverse, et leur adaptation à des méthodes de sampling rapide et distillé s'est avérée étonnamment difficile. Ici, nous nous concentrons sur une ligne populaire de cadres d'édition basés sur le texte - l'approche d'inversion de bruit DDPM dite « edit-friendly ». Nous analysons son application aux méthodes de sampling rapide et catégorisons ses échecs en deux classes : l'apparition d'artefacts visuels et une force d'édition insuffisante. Nous attribuons les artefacts à une inadéquation des statistiques de bruit entre les bruits inversés et le calendrier de bruit attendu, et suggérons un calendrier de bruit décalé qui corrige cet écart. Pour augmenter la force d'édition, nous proposons une approche de pseudo-guidage qui augmente efficacement l'amplitude des modifications sans introduire de nouveaux artefacts. Au final, notre méthode permet l'édition d'images basée sur le texte avec aussi peu que trois étapes de diffusion, tout en fournissant de nouvelles perspectives sur les mécanismes sous-jacents aux approches populaires d'édition basées sur le texte.
English
Diffusion models have opened the path to a wide range of text-based image editing frameworks. However, these typically build on the multi-step nature of the diffusion backwards process, and adapting them to distilled, fast-sampling methods has proven surprisingly challenging. Here, we focus on a popular line of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion approach. We analyze its application to fast sampling methods and categorize its failures into two classes: the appearance of visual artifacts, and insufficient editing strength. We trace the artifacts to mismatched noise statistics between inverted noises and the expected noise schedule, and suggest a shifted noise schedule which corrects for this offset. To increase editing strength, we propose a pseudo-guidance approach that efficiently increases the magnitude of edits without introducing new artifacts. All in all, our method enables text-based image editing with as few as three diffusion steps, while providing novel insights into the mechanisms behind popular text-based editing approaches.

Summary

AI-Generated Summary

PDF172November 28, 2024