ChatPaper.aiChatPaper

SwiftEdit: Razendsnelle tekstgestuurde beeldbewerking via Eén-Staps Diffusie

SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

December 5, 2024
Auteurs: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham
cs.AI

Samenvatting

Recente ontwikkelingen in tekstgestuurde beeldbewerking stellen gebruikers in staat om beeldbewerkingen uit te voeren via eenvoudige tekstinvoer, waarbij gebruik wordt gemaakt van de uitgebreide voorkennis van op diffusie gebaseerde tekst-naar-beeldmodellen met meerdere stappen. Deze methoden schieten echter vaak tekort aan de snelheidseisen die nodig zijn voor real-world en on-device toepassingen vanwege het kostbare multi-stap inversie- en bemonsteringsproces dat ermee gepaard gaat. Als reactie hierop introduceren we SwiftEdit, een eenvoudige maar zeer efficiënte bewerkingstool die directe tekstgestuurde beeldbewerking mogelijk maakt (in 0.23s). De vooruitgang van SwiftEdit ligt in zijn twee nieuwe bijdragen: een éénstaps inversiekader dat éénstaps beeldreconstructie mogelijk maakt via inversie en een bewerkingstechniek met maskergeleiding met ons voorgestelde aandachtherkalibratiemechanisme om gelokaliseerde beeldbewerking uit te voeren. Uitgebreide experimenten worden uitgevoerd om de effectiviteit en efficiëntie van SwiftEdit te demonstreren. In het bijzonder maakt SwiftEdit directe tekstgestuurde beeldbewerking mogelijk, die extreem sneller is dan eerdere multi-stap methoden (minstens 50 keer sneller) terwijl het een concurrerende prestatie behoudt in bewerkingsresultaten. Onze projectpagina is te vinden op: https://swift-edit.github.io/
English
Recent advances in text-guided image editing enable users to perform image edits through simple text inputs, leveraging the extensive priors of multi-step diffusion-based text-to-image models. However, these methods often fall short of the speed demands required for real-world and on-device applications due to the costly multi-step inversion and sampling process involved. In response to this, we introduce SwiftEdit, a simple yet highly efficient editing tool that achieve instant text-guided image editing (in 0.23s). The advancement of SwiftEdit lies in its two novel contributions: a one-step inversion framework that enables one-step image reconstruction via inversion and a mask-guided editing technique with our proposed attention rescaling mechanism to perform localized image editing. Extensive experiments are provided to demonstrate the effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables instant text-guided image editing, which is extremely faster than previous multi-step methods (at least 50 times faster) while maintain a competitive performance in editing results. Our project page is at: https://swift-edit.github.io/
PDF416December 9, 2024