ChatPaper.aiChatPaper

TurboEdit: Modifica di immagini basata su testo utilizzando modelli di diffusione a pochi passaggi

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

August 1, 2024
Autori: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI

Abstract

I modelli di diffusione hanno aperto la strada a una vasta gamma di framework di editing di immagini basati su testo. Tuttavia, questi si basano tipicamente sulla natura multi-step del processo inverso di diffusione, e adattarli a metodi di campionamento rapido e distillati si è rivelato sorprendentemente impegnativo. In questo lavoro, ci concentriamo su una linea popolare di framework di editing basati su testo - l'approccio "edit-friendly" dell'inversione del rumore DDPM. Analizziamo la sua applicazione ai metodi di campionamento rapido e classifichiamo i suoi fallimenti in due categorie: la comparsa di artefatti visivi e l'insufficiente forza di editing. Rintracciamo gli artefatti in una mancata corrispondenza delle statistiche del rumore tra i rumori invertiti e il programma di rumore atteso, e suggeriamo un programma di rumore modificato che corregge questo scostamento. Per aumentare la forza di editing, proponiamo un approccio di pseudo-guidance che aumenta efficientemente l'entità delle modifiche senza introdurre nuovi artefatti. Nel complesso, il nostro metodo consente l'editing di immagini basato su testo con appena tre passi di diffusione, fornendo al contempo nuove intuizioni sui meccanismi alla base dei popolari approcci di editing basati su testo.
English
Diffusion models have opened the path to a wide range of text-based image editing frameworks. However, these typically build on the multi-step nature of the diffusion backwards process, and adapting them to distilled, fast-sampling methods has proven surprisingly challenging. Here, we focus on a popular line of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion approach. We analyze its application to fast sampling methods and categorize its failures into two classes: the appearance of visual artifacts, and insufficient editing strength. We trace the artifacts to mismatched noise statistics between inverted noises and the expected noise schedule, and suggest a shifted noise schedule which corrects for this offset. To increase editing strength, we propose a pseudo-guidance approach that efficiently increases the magnitude of edits without introducing new artifacts. All in all, our method enables text-based image editing with as few as three diffusion steps, while providing novel insights into the mechanisms behind popular text-based editing approaches.
PDF172November 28, 2024