FlashEdit: Entkopplung von Geschwindigkeit, Struktur und Semantik für präzise Bildbearbeitung
FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing
September 26, 2025
papers.authors: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang
cs.AI
papers.abstract
Text-gesteuerte Bildbearbeitung mit Diffusionsmodellen hat bemerkenswerte Qualität erreicht, leidet jedoch unter prohibitiv hoher Latenz, was reale Anwendungen behindert. Wir stellen FlashEdit vor, ein neuartiges Framework, das hochwertige Echtzeit-Bildbearbeitung ermöglicht. Seine Effizienz ergibt sich aus drei Schlüsselinnovationen: (1) eine One-Step Inversion-and-Editing (OSIE)-Pipeline, die kostspielige iterative Prozesse umgeht; (2) eine Background Shield (BG-Shield)-Technik, die die Hintergrundbewahrung gewährleistet, indem sie Merkmale selektiv nur innerhalb des Bearbeitungsbereichs modifiziert; und (3) ein Sparsified Spatial Cross-Attention (SSCA)-Mechanismus, der präzise, lokalisierte Bearbeitungen sicherstellt, indem semantische Leckagen in den Hintergrund unterdrückt werden. Umfangreiche Experimente zeigen, dass FlashEdit eine überlegene Hintergrundkonsistenz und strukturelle Integrität beibehält, während Bearbeitungen in weniger als 0,2 Sekunden durchgeführt werden, was eine über 150-fache Beschleunigung im Vergleich zu früheren mehrstufigen Methoden darstellt. Unser Code wird unter https://github.com/JunyiWuCode/FlashEdit öffentlich verfügbar gemacht.
English
Text-guided image editing with diffusion models has achieved remarkable
quality but suffers from prohibitive latency, hindering real-world
applications. We introduce FlashEdit, a novel framework designed to enable
high-fidelity, real-time image editing. Its efficiency stems from three key
innovations: (1) a One-Step Inversion-and-Editing (OSIE) pipeline that bypasses
costly iterative processes; (2) a Background Shield (BG-Shield) technique that
guarantees background preservation by selectively modifying features only
within the edit region; and (3) a Sparsified Spatial Cross-Attention (SSCA)
mechanism that ensures precise, localized edits by suppressing semantic leakage
to the background. Extensive experiments demonstrate that FlashEdit maintains
superior background consistency and structural integrity, while performing
edits in under 0.2 seconds, which is an over 150times speedup compared to
prior multi-step methods. Our code will be made publicly available at
https://github.com/JunyiWuCode/FlashEdit.