ChatPaper.aiChatPaper

SwiftEdit: Edição de Imagens Guiada por Texto em Alta Velocidade via Difusão em Um Passo

SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

December 5, 2024
Autores: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham
cs.AI

Resumo

Os avanços recentes na edição de imagens guiada por texto permitem aos usuários realizar edições de imagens por meio de entradas de texto simples, aproveitando os extensos conhecimentos prévios de modelos de texto-para-imagem baseados em difusão de múltiplas etapas. No entanto, esses métodos frequentemente não atendem às demandas de velocidade necessárias para aplicações do mundo real e em dispositivos devido ao custoso processo de inversão e amostragem de múltiplas etapas envolvido. Em resposta a isso, apresentamos o SwiftEdit, uma ferramenta de edição simples, porém altamente eficiente, que alcança edição instantânea de imagens guiada por texto (em 0,23s). O avanço do SwiftEdit reside em suas duas contribuições inovadoras: um framework de inversão de uma etapa que possibilita a reconstrução de imagem em uma etapa via inversão e uma técnica de edição guiada por máscara com nosso mecanismo de redimensionamento de atenção proposto para realizar edições de imagem localizadas. Experimentos extensivos são fornecidos para demonstrar a eficácia e eficiência do SwiftEdit. Em particular, o SwiftEdit permite edição instantânea de imagens guiada por texto, que é extremamente mais rápida do que métodos de múltiplas etapas anteriores (pelo menos 50 vezes mais rápida), mantendo um desempenho competitivo nos resultados de edição. Nossa página do projeto está em: https://swift-edit.github.io/
English
Recent advances in text-guided image editing enable users to perform image edits through simple text inputs, leveraging the extensive priors of multi-step diffusion-based text-to-image models. However, these methods often fall short of the speed demands required for real-world and on-device applications due to the costly multi-step inversion and sampling process involved. In response to this, we introduce SwiftEdit, a simple yet highly efficient editing tool that achieve instant text-guided image editing (in 0.23s). The advancement of SwiftEdit lies in its two novel contributions: a one-step inversion framework that enables one-step image reconstruction via inversion and a mask-guided editing technique with our proposed attention rescaling mechanism to perform localized image editing. Extensive experiments are provided to demonstrate the effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables instant text-guided image editing, which is extremely faster than previous multi-step methods (at least 50 times faster) while maintain a competitive performance in editing results. Our project page is at: https://swift-edit.github.io/

Summary

AI-Generated Summary

PDF396December 9, 2024