ChatPaper.aiChatPaper

FlashEdit : Découplage de la vitesse, de la structure et de la sémantique pour une édition d'image précise

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

September 26, 2025
papers.authors: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang
cs.AI

papers.abstract

L'édition d'images guidée par texte avec des modèles de diffusion a atteint une qualité remarquable, mais souffre d'une latence prohibitive, entravant les applications en temps réel. Nous présentons FlashEdit, un nouveau cadre conçu pour permettre une édition d'images en haute fidélité et en temps réel. Son efficacité découle de trois innovations clés : (1) un pipeline d'inversion-et-édition en une étape (OSIE) qui contourne les processus itératifs coûteux ; (2) une technique de Protection de l'Arrière-Plan (BG-Shield) qui garantit la préservation de l'arrière-plan en modifiant sélectivement les caractéristiques uniquement dans la région à éditer ; et (3) un mécanisme d'Attention Spatiale Croisée Sparsifiée (SSCA) qui assure des modifications précises et localisées en supprimant les fuites sémantiques vers l'arrière-plan. Des expériences approfondies démontrent que FlashEdit maintient une cohérence supérieure de l'arrière-plan et une intégrité structurelle, tout en effectuant des modifications en moins de 0,2 seconde, ce qui représente une accélération de plus de 150 fois par rapport aux méthodes multi-étapes précédentes. Notre code sera rendu public à l'adresse https://github.com/JunyiWuCode/FlashEdit.
English
Text-guided image editing with diffusion models has achieved remarkable quality but suffers from prohibitive latency, hindering real-world applications. We introduce FlashEdit, a novel framework designed to enable high-fidelity, real-time image editing. Its efficiency stems from three key innovations: (1) a One-Step Inversion-and-Editing (OSIE) pipeline that bypasses costly iterative processes; (2) a Background Shield (BG-Shield) technique that guarantees background preservation by selectively modifying features only within the edit region; and (3) a Sparsified Spatial Cross-Attention (SSCA) mechanism that ensures precise, localized edits by suppressing semantic leakage to the background. Extensive experiments demonstrate that FlashEdit maintains superior background consistency and structural integrity, while performing edits in under 0.2 seconds, which is an over 150times speedup compared to prior multi-step methods. Our code will be made publicly available at https://github.com/JunyiWuCode/FlashEdit.
PDF34September 29, 2025