FlashEdit : Découplage de la vitesse, de la structure et de la sémantique pour une édition d'image précise
FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing
September 26, 2025
papers.authors: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang
cs.AI
papers.abstract
L'édition d'images guidée par texte avec des modèles de diffusion a atteint une qualité remarquable, mais souffre d'une latence prohibitive, entravant les applications en temps réel. Nous présentons FlashEdit, un nouveau cadre conçu pour permettre une édition d'images en haute fidélité et en temps réel. Son efficacité découle de trois innovations clés : (1) un pipeline d'inversion-et-édition en une étape (OSIE) qui contourne les processus itératifs coûteux ; (2) une technique de Protection de l'Arrière-Plan (BG-Shield) qui garantit la préservation de l'arrière-plan en modifiant sélectivement les caractéristiques uniquement dans la région à éditer ; et (3) un mécanisme d'Attention Spatiale Croisée Sparsifiée (SSCA) qui assure des modifications précises et localisées en supprimant les fuites sémantiques vers l'arrière-plan. Des expériences approfondies démontrent que FlashEdit maintient une cohérence supérieure de l'arrière-plan et une intégrité structurelle, tout en effectuant des modifications en moins de 0,2 seconde, ce qui représente une accélération de plus de 150 fois par rapport aux méthodes multi-étapes précédentes. Notre code sera rendu public à l'adresse https://github.com/JunyiWuCode/FlashEdit.
English
Text-guided image editing with diffusion models has achieved remarkable
quality but suffers from prohibitive latency, hindering real-world
applications. We introduce FlashEdit, a novel framework designed to enable
high-fidelity, real-time image editing. Its efficiency stems from three key
innovations: (1) a One-Step Inversion-and-Editing (OSIE) pipeline that bypasses
costly iterative processes; (2) a Background Shield (BG-Shield) technique that
guarantees background preservation by selectively modifying features only
within the edit region; and (3) a Sparsified Spatial Cross-Attention (SSCA)
mechanism that ensures precise, localized edits by suppressing semantic leakage
to the background. Extensive experiments demonstrate that FlashEdit maintains
superior background consistency and structural integrity, while performing
edits in under 0.2 seconds, which is an over 150times speedup compared to
prior multi-step methods. Our code will be made publicly available at
https://github.com/JunyiWuCode/FlashEdit.