ChatPaper.aiChatPaper

TurboEdit: Textbasierte Bildbearbeitung unter Verwendung von Diffusionsmodellen mit wenigen Schritten

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

August 1, 2024
Autoren: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI

Zusammenfassung

Diffusionsmodelle haben den Weg zu einer Vielzahl von auf Text basierenden Bildbearbeitungsframeworks geebnet. Diese bauen jedoch in der Regel auf der mehrstufigen Natur des rückwärtigen Diffusionsprozesses auf, und ihre Anpassung an destillierte, schnelle Abtastmethoden hat sich als überraschend herausfordernd erwiesen. Hier konzentrieren wir uns auf eine beliebte Linie von auf Text basierenden Bearbeitungsframeworks - den „bearbeitungsfreundlichen“ DDPM-Rauschinversionsansatz. Wir analysieren dessen Anwendung auf schnelle Abtastmethoden und kategorisieren seine Fehler in zwei Klassen: das Auftreten von visuellen Artefakten und unzureichende Bearbeitungsstärke. Wir führen die Artefakte auf unpassende Rauschstatistiken zwischen invertierten Rauschen und dem erwarteten Rauschzeitplan zurück und schlagen einen verschobenen Rauschzeitplan vor, der diesen Versatz korrigiert. Um die Bearbeitungsstärke zu erhöhen, schlagen wir einen Pseudo-Leitungsansatz vor, der die Größe der Bearbeitungen effizient erhöht, ohne neue Artefakte einzuführen. Insgesamt ermöglicht unsere Methode die auf Text basierende Bildbearbeitung mit nur drei Diffusionsschritten und liefert neue Erkenntnisse über die Mechanismen hinter beliebten auf Text basierenden Bearbeitungsansätzen.
English
Diffusion models have opened the path to a wide range of text-based image editing frameworks. However, these typically build on the multi-step nature of the diffusion backwards process, and adapting them to distilled, fast-sampling methods has proven surprisingly challenging. Here, we focus on a popular line of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion approach. We analyze its application to fast sampling methods and categorize its failures into two classes: the appearance of visual artifacts, and insufficient editing strength. We trace the artifacts to mismatched noise statistics between inverted noises and the expected noise schedule, and suggest a shifted noise schedule which corrects for this offset. To increase editing strength, we propose a pseudo-guidance approach that efficiently increases the magnitude of edits without introducing new artifacts. All in all, our method enables text-based image editing with as few as three diffusion steps, while providing novel insights into the mechanisms behind popular text-based editing approaches.

Summary

AI-Generated Summary

PDF172November 28, 2024