SwiftEdit: Blitzschnelle textgesteuerte Bildbearbeitung über Ein-Schritt-Diffusion
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
December 5, 2024
Autoren: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham
cs.AI
Zusammenfassung
Neueste Fortschritte in der textgesteuerten Bildbearbeitung ermöglichen es Benutzern, Bildbearbeitungen durch einfache Texteingaben durchzuführen, wobei die umfangreichen Vorkenntnisse von mehrstufigen Diffusions-basierten Text-zu-Bild-Modellen genutzt werden. Allerdings erfüllen diese Methoden oft nicht die Geschwindigkeitsanforderungen, die für Anwendungen in der realen Welt und auf Geräten erforderlich sind, aufgrund des kostspieligen mehrstufigen Umkehr- und Abtastprozesses. Als Antwort darauf stellen wir SwiftEdit vor, ein einfaches, aber äußerst effizientes Bearbeitungswerkzeug, das eine sofortige textgesteuerte Bildbearbeitung ermöglicht (in 0,23 Sekunden). Der Fortschritt von SwiftEdit liegt in seinen zwei neuartigen Beiträgen: einem Ein-Schritt-Umkehrungsrahmen, der eine Bildrekonstruktion in einem Schritt über die Umkehrung ermöglicht, und einer maskengesteuerten Bearbeitungstechnik mit unserem vorgeschlagenen Aufmerksamkeitsneuskalierungsmechanismus zur Durchführung einer lokalen Bildbearbeitung. Umfangreiche Experimente werden durchgeführt, um die Wirksamkeit und Effizienz von SwiftEdit zu demonstrieren. Insbesondere ermöglicht SwiftEdit eine sofortige textgesteuerte Bildbearbeitung, die extrem schneller ist als frühere mehrstufige Methoden (mindestens 50-mal schneller), während sie eine wettbewerbsfähige Leistung bei den Bearbeitungsergebnissen beibehält. Unsere Projektseite befindet sich unter: https://swift-edit.github.io/
English
Recent advances in text-guided image editing enable users to perform image
edits through simple text inputs, leveraging the extensive priors of multi-step
diffusion-based text-to-image models. However, these methods often fall short
of the speed demands required for real-world and on-device applications due to
the costly multi-step inversion and sampling process involved. In response to
this, we introduce SwiftEdit, a simple yet highly efficient editing tool that
achieve instant text-guided image editing (in 0.23s). The advancement of
SwiftEdit lies in its two novel contributions: a one-step inversion framework
that enables one-step image reconstruction via inversion and a mask-guided
editing technique with our proposed attention rescaling mechanism to perform
localized image editing. Extensive experiments are provided to demonstrate the
effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables
instant text-guided image editing, which is extremely faster than previous
multi-step methods (at least 50 times faster) while maintain a competitive
performance in editing results. Our project page is at:
https://swift-edit.github.io/Summary
AI-Generated Summary