SwiftEdit : Édition d'images guidée par texte ultra-rapide via la diffusion en une étape
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
December 5, 2024
Auteurs: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham
cs.AI
Résumé
Les récentes avancées en matière d'édition d'images guidée par le texte permettent aux utilisateurs d'effectuer des modifications d'images à l'aide de simples entrées textuelles, en exploitant les connaissances a priori des modèles texte-image à diffusion multi-étape. Cependant, ces méthodes sont souvent insuffisantes pour répondre aux exigences de vitesse nécessaires aux applications réelles et embarquées en raison du processus coûteux d'inversion et d'échantillonnage multi-étape impliqué. En réponse à cela, nous présentons SwiftEdit, un outil d'édition simple mais hautement efficace qui permet une édition d'images guidée par le texte instantanée (en 0,23s). L'avancée de SwiftEdit réside dans ses deux contributions novatrices : un cadre d'inversion en une étape qui permet la reconstruction d'image en une seule étape via l'inversion et une technique d'édition guidée par un masque avec notre mécanisme de rééchelonnement de l'attention proposé pour réaliser une édition d'image localisée. De nombreuses expériences sont fournies pour démontrer l'efficacité et l'efficience de SwiftEdit. En particulier, SwiftEdit permet une édition d'images guidée par le texte instantanée, bien plus rapide que les méthodes multi-étapes précédentes (au moins 50 fois plus rapide), tout en maintenant des performances compétitives dans les résultats d'édition. Notre page de projet se trouve à l'adresse : https://swift-edit.github.io/
English
Recent advances in text-guided image editing enable users to perform image
edits through simple text inputs, leveraging the extensive priors of multi-step
diffusion-based text-to-image models. However, these methods often fall short
of the speed demands required for real-world and on-device applications due to
the costly multi-step inversion and sampling process involved. In response to
this, we introduce SwiftEdit, a simple yet highly efficient editing tool that
achieve instant text-guided image editing (in 0.23s). The advancement of
SwiftEdit lies in its two novel contributions: a one-step inversion framework
that enables one-step image reconstruction via inversion and a mask-guided
editing technique with our proposed attention rescaling mechanism to perform
localized image editing. Extensive experiments are provided to demonstrate the
effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables
instant text-guided image editing, which is extremely faster than previous
multi-step methods (at least 50 times faster) while maintain a competitive
performance in editing results. Our project page is at:
https://swift-edit.github.io/Summary
AI-Generated Summary