FlashEdit: Разделение скорости, структуры и семантики для точного редактирования изображений
FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing
September 26, 2025
Авторы: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang
cs.AI
Аннотация
Редактирование изображений с использованием текстовых подсказок и моделей диффузии достигло впечатляющего качества, однако сталкивается с чрезмерной задержкой, что ограничивает его применение в реальных задачах. Мы представляем FlashEdit — новый фреймворк, разработанный для обеспечения высококачественного редактирования изображений в реальном времени. Его эффективность основана на трех ключевых инновациях: (1) конвейер One-Step Inversion-and-Editing (OSIE), который исключает затратные итеративные процессы; (2) техника Background Shield (BG-Shield), гарантирующая сохранение фона за счет избирательного изменения признаков только в области редактирования; и (3) механизм Sparsified Spatial Cross-Attention (SSCA), обеспечивающий точные локализованные правки за счет подавления семантического "просачивания" на фон. Многочисленные эксперименты показывают, что FlashEdit сохраняет превосходную согласованность фона и структурную целостность, выполняя редактирование менее чем за 0,2 секунды, что более чем в 150 раз быстрее по сравнению с предыдущими многошаговыми методами. Наш код будет доступен публично по адресу https://github.com/JunyiWuCode/FlashEdit.
English
Text-guided image editing with diffusion models has achieved remarkable
quality but suffers from prohibitive latency, hindering real-world
applications. We introduce FlashEdit, a novel framework designed to enable
high-fidelity, real-time image editing. Its efficiency stems from three key
innovations: (1) a One-Step Inversion-and-Editing (OSIE) pipeline that bypasses
costly iterative processes; (2) a Background Shield (BG-Shield) technique that
guarantees background preservation by selectively modifying features only
within the edit region; and (3) a Sparsified Spatial Cross-Attention (SSCA)
mechanism that ensures precise, localized edits by suppressing semantic leakage
to the background. Extensive experiments demonstrate that FlashEdit maintains
superior background consistency and structural integrity, while performing
edits in under 0.2 seconds, which is an over 150times speedup compared to
prior multi-step methods. Our code will be made publicly available at
https://github.com/JunyiWuCode/FlashEdit.