ChatPaper.aiChatPaper

SwiftEdit: Edición de imágenes guiada por texto ultrarrápida a través de Difusión en un Paso

SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

December 5, 2024
Autores: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham
cs.AI

Resumen

Los avances recientes en la edición de imágenes guiada por texto permiten a los usuarios realizar ediciones de imágenes a través de simples entradas de texto, aprovechando los extensos conocimientos previos de modelos de texto a imagen basados en difusión de múltiples pasos. Sin embargo, estos métodos a menudo no cumplen con las demandas de velocidad requeridas para aplicaciones del mundo real y en dispositivos debido al costoso proceso de inversión y muestreo de múltiples pasos involucrado. En respuesta a esto, presentamos SwiftEdit, una herramienta de edición simple pero altamente eficiente que logra una edición instantánea de imágenes guiada por texto (en 0.23 segundos). El avance de SwiftEdit radica en sus dos contribuciones novedosas: un marco de inversión de un solo paso que permite la reconstrucción de imágenes en un solo paso a través de la inversión y una técnica de edición guiada por máscara con nuestro mecanismo propuesto de reescalado de atención para realizar ediciones de imágenes localizadas. Se proporcionan experimentos extensos para demostrar la efectividad y eficiencia de SwiftEdit. En particular, SwiftEdit permite la edición instantánea de imágenes guiada por texto, que es extremadamente más rápida que los métodos de múltiples pasos anteriores (al menos 50 veces más rápida) mientras mantiene un rendimiento competitivo en los resultados de edición. Nuestra página de proyecto está en: https://swift-edit.github.io/
English
Recent advances in text-guided image editing enable users to perform image edits through simple text inputs, leveraging the extensive priors of multi-step diffusion-based text-to-image models. However, these methods often fall short of the speed demands required for real-world and on-device applications due to the costly multi-step inversion and sampling process involved. In response to this, we introduce SwiftEdit, a simple yet highly efficient editing tool that achieve instant text-guided image editing (in 0.23s). The advancement of SwiftEdit lies in its two novel contributions: a one-step inversion framework that enables one-step image reconstruction via inversion and a mask-guided editing technique with our proposed attention rescaling mechanism to perform localized image editing. Extensive experiments are provided to demonstrate the effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables instant text-guided image editing, which is extremely faster than previous multi-step methods (at least 50 times faster) while maintain a competitive performance in editing results. Our project page is at: https://swift-edit.github.io/

Summary

AI-Generated Summary

PDF396December 9, 2024