ChatPaper.aiChatPaper

FlashEdit: Разделение скорости, структуры и семантики для точного редактирования изображений

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

September 26, 2025
Авторы: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang
cs.AI

Аннотация

Редактирование изображений с использованием текстовых подсказок и моделей диффузии достигло впечатляющего качества, однако сталкивается с чрезмерной задержкой, что ограничивает его применение в реальных задачах. Мы представляем FlashEdit — новый фреймворк, разработанный для обеспечения высококачественного редактирования изображений в реальном времени. Его эффективность основана на трех ключевых инновациях: (1) конвейер One-Step Inversion-and-Editing (OSIE), который исключает затратные итеративные процессы; (2) техника Background Shield (BG-Shield), гарантирующая сохранение фона за счет избирательного изменения признаков только в области редактирования; и (3) механизм Sparsified Spatial Cross-Attention (SSCA), обеспечивающий точные локализованные правки за счет подавления семантического "просачивания" на фон. Многочисленные эксперименты показывают, что FlashEdit сохраняет превосходную согласованность фона и структурную целостность, выполняя редактирование менее чем за 0,2 секунды, что более чем в 150 раз быстрее по сравнению с предыдущими многошаговыми методами. Наш код будет доступен публично по адресу https://github.com/JunyiWuCode/FlashEdit.
English
Text-guided image editing with diffusion models has achieved remarkable quality but suffers from prohibitive latency, hindering real-world applications. We introduce FlashEdit, a novel framework designed to enable high-fidelity, real-time image editing. Its efficiency stems from three key innovations: (1) a One-Step Inversion-and-Editing (OSIE) pipeline that bypasses costly iterative processes; (2) a Background Shield (BG-Shield) technique that guarantees background preservation by selectively modifying features only within the edit region; and (3) a Sparsified Spatial Cross-Attention (SSCA) mechanism that ensures precise, localized edits by suppressing semantic leakage to the background. Extensive experiments demonstrate that FlashEdit maintains superior background consistency and structural integrity, while performing edits in under 0.2 seconds, which is an over 150times speedup compared to prior multi-step methods. Our code will be made publicly available at https://github.com/JunyiWuCode/FlashEdit.
PDF34September 29, 2025