ChatPaper.aiChatPaper

TurboEdit: Tekstgebaseerde beeldbewerking met diffusiemodellen in enkele stappen

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

August 1, 2024
Auteurs: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI

Samenvatting

Diffusiemodellen hebben de weg geopend naar een breed scala aan tekstgebaseerde beeldbewerkingsframeworks. Deze bouwen echter meestal voort op de meerstapsaard van het achterwaartse diffusieproces, en het aanpassen ervan aan gedistilleerde, snel bemonsterende methoden is verrassend uitdagend gebleken. Hier richten we ons op een populaire lijn van tekstgebaseerde bewerkingsframeworks - de ``bewerkingsvriendelijke'' DDPM-ruisinversiebenadering. We analyseren de toepassing ervan op snel bemonsterende methoden en categoriseren de tekortkomingen in twee klassen: het verschijnen van visuele artefacten en onvoldoende bewerkingssterkte. We herleiden de artefacten naar niet-overeenkomende ruisstatistieken tussen geïnverteerde ruis en het verwachte ruisschema, en stellen een verschoven ruisschema voor dat deze afwijking corrigeert. Om de bewerkingssterkte te vergroten, stellen we een pseudo-guidance-benadering voor die efficiënt de omvang van bewerkingen vergroot zonder nieuwe artefacten te introduceren. Al met al maakt onze methode tekstgebaseerde beeldbewerking mogelijk met slechts drie diffusiestappen, terwijl het nieuwe inzichten biedt in de mechanismen achter populaire tekstgebaseerde bewerkingsbenaderingen.
English
Diffusion models have opened the path to a wide range of text-based image editing frameworks. However, these typically build on the multi-step nature of the diffusion backwards process, and adapting them to distilled, fast-sampling methods has proven surprisingly challenging. Here, we focus on a popular line of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion approach. We analyze its application to fast sampling methods and categorize its failures into two classes: the appearance of visual artifacts, and insufficient editing strength. We trace the artifacts to mismatched noise statistics between inverted noises and the expected noise schedule, and suggest a shifted noise schedule which corrects for this offset. To increase editing strength, we propose a pseudo-guidance approach that efficiently increases the magnitude of edits without introducing new artifacts. All in all, our method enables text-based image editing with as few as three diffusion steps, while providing novel insights into the mechanisms behind popular text-based editing approaches.
PDF162February 7, 2026