FlashEdit: Entkopplung von Geschwindigkeit, Struktur und Semantik für präzise Bildbearbeitung

Zusammenfassung

Text-gesteuerte Bildbearbeitung mit Diffusionsmodellen hat bemerkenswerte Qualität erreicht, leidet jedoch unter prohibitiv hoher Latenz, was reale Anwendungen behindert. Wir stellen FlashEdit vor, ein neuartiges Framework, das hochwertige Echtzeit-Bildbearbeitung ermöglicht. Seine Effizienz ergibt sich aus drei Schlüsselinnovationen: (1) eine One-Step Inversion-and-Editing (OSIE)-Pipeline, die kostspielige iterative Prozesse umgeht; (2) eine Background Shield (BG-Shield)-Technik, die die Hintergrundbewahrung gewährleistet, indem sie Merkmale selektiv nur innerhalb des Bearbeitungsbereichs modifiziert; und (3) ein Sparsified Spatial Cross-Attention (SSCA)-Mechanismus, der präzise, lokalisierte Bearbeitungen sicherstellt, indem semantische Leckagen in den Hintergrund unterdrückt werden. Umfangreiche Experimente zeigen, dass FlashEdit eine überlegene Hintergrundkonsistenz und strukturelle Integrität beibehält, während Bearbeitungen in weniger als 0,2 Sekunden durchgeführt werden, was eine über 150-fache Beschleunigung im Vergleich zu früheren mehrstufigen Methoden darstellt. Unser Code wird unter https://github.com/JunyiWuCode/FlashEdit öffentlich verfügbar gemacht.

English

Text-guided image editing with diffusion models has achieved remarkable quality but suffers from prohibitive latency, hindering real-world applications. We introduce FlashEdit, a novel framework designed to enable high-fidelity, real-time image editing. Its efficiency stems from three key innovations: (1) a One-Step Inversion-and-Editing (OSIE) pipeline that bypasses costly iterative processes; (2) a Background Shield (BG-Shield) technique that guarantees background preservation by selectively modifying features only within the edit region; and (3) a Sparsified Spatial Cross-Attention (SSCA) mechanism that ensures precise, localized edits by suppressing semantic leakage to the background. Extensive experiments demonstrate that FlashEdit maintains superior background consistency and structural integrity, while performing edits in under 0.2 seconds, which is an over 150times speedup compared to prior multi-step methods. Our code will be made publicly available at https://github.com/JunyiWuCode/FlashEdit.