SwiftEdit: мгновенное редактирование изображений с помощью текста через одноступенчатую диффузию
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
December 5, 2024
Авторы: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham
cs.AI
Аннотация
Недавние достижения в области редактирования изображений с помощью текста позволяют пользователям выполнять редактирование изображений через простой текстовый ввод, используя обширные априорные знания многоэтапных моделей преобразования текста в изображение на основе диффузии. Однако эти методы часто не удовлетворяют требования скорости, необходимой для приложений в реальном мире и на устройствах из-за дорогостоящего многоэтапного процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений с помощью текста (за 0,23 секунды). Продвижение SwiftEdit заключается в его двух новаторских вкладах: фреймворке инверсии одного шага, который позволяет восстановление изображения за один шаг путем инверсии, и технике редактирования с маской с нашим предложенным механизмом масштабирования внимания для выполнения локализованного редактирования изображения. Проведены обширные эксперименты для демонстрации эффективности и эффективности SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений с помощью текста, что намного быстрее, чем предыдущие многоэтапные методы (как минимум в 50 раз быстрее), сохраняя при этом конкурентоспособные результаты редактирования. Наша страница проекта: https://swift-edit.github.io/
English
Recent advances in text-guided image editing enable users to perform image
edits through simple text inputs, leveraging the extensive priors of multi-step
diffusion-based text-to-image models. However, these methods often fall short
of the speed demands required for real-world and on-device applications due to
the costly multi-step inversion and sampling process involved. In response to
this, we introduce SwiftEdit, a simple yet highly efficient editing tool that
achieve instant text-guided image editing (in 0.23s). The advancement of
SwiftEdit lies in its two novel contributions: a one-step inversion framework
that enables one-step image reconstruction via inversion and a mask-guided
editing technique with our proposed attention rescaling mechanism to perform
localized image editing. Extensive experiments are provided to demonstrate the
effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables
instant text-guided image editing, which is extremely faster than previous
multi-step methods (at least 50 times faster) while maintain a competitive
performance in editing results. Our project page is at:
https://swift-edit.github.io/Summary
AI-Generated Summary