SpotEdit: Selektive Bereichsbearbeitung in Diffusions-Transformatoren
SpotEdit: Selective Region Editing in Diffusion Transformers
December 26, 2025
papers.authors: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI
papers.abstract
Diffusion-Transformer-Modelle haben die Bildbearbeitung erheblich vorangetrieben, indem sie konditionelle Bilder kodieren und in die Transformer-Schichten integrieren. Bei den meisten Bearbeitungen werden jedoch nur kleine Bildbereiche verändert, während aktuelle Methoden alle Token in jedem Zeitschritt gleichmäßig verarbeiten und entrauschen. Dies führt zu redundanten Berechnungen und kann unveränderte Bereiche verschlechtern. Daraus ergibt sich eine grundlegende Frage: Ist es wirklich notwendig, jede Region während der Bearbeitung neu zu generieren? Um dies zu adressieren, schlagen wir SpotEdit vor, ein trainierungsfreies Diffusions-Bearbeitungsframework, das selektiv nur die veränderten Regionen aktualisiert. SpotEdit besteht aus zwei Schlüsselkomponenten: Der SpotSelector identifiziert stabile Regionen über perzeptuelle Ähnlichkeit und überspringt deren Berechnung durch Wiederverwendung konditioneller Bildmerkmale; SpotFusion verschmilzt diese Merkmale adaptiv mit bearbeiteten Token durch einen dynamischen Fusionsmechanismus, um kontextuelle Kohärenz und Bearbeitungsqualität zu erhalten. Durch die Reduzierung unnötiger Berechnungen und die Beibehaltung hoher Qualität in unveränderten Bereichen ermöglicht SpotEdit eine effiziente und präzise Bildbearbeitung.
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.