SpotEdit: Selectief Gebiedsbewerken in Diffusion Transformers
SpotEdit: Selective Region Editing in Diffusion Transformers
December 26, 2025
Auteurs: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI
Samenvatting
Diffusion Transformer-modellen hebben beeldbewerking aanzienlijk vooruitgeholpen door conditionele beelden te coderen en ze in transformer-lagen te integreren. Bij de meeste bewerkingen worden echter alleen kleine regio's aangepast, terwijl huidige methodes alle tokens uniform verwerken en denoisen bij elke tijdstap. Dit leidt tot overbodige rekenkosten en kan ongewijzigde gebieden verslechteren. Dit roept een fundamentele vraag op: Is het werkelijk nodig om elke regio opnieuw te genereren tijdens het bewerken? Om dit aan te pakken, stellen we SpotEdit voor, een trainingsvrij diffusiebewerkingsraamwerk dat alleen de gewijzigde regio's selectief bijwerkt. SpotEdit bestaat uit twee kerncomponenten: SpotSelector identificeert stabiele regio's via perceptuele gelijkenis en slaat hun berekening over door conditionele beeldkenmerken te hergebruiken; SpotFusion voegt deze kenmerken adaptief samen met bewerkte tokens via een dynamisch fusiemechanisme, waardoor contextuele samenhang en bewerkingskwaliteit behouden blijven. Door onnodige berekeningen te verminderen en hoge trouw in ongewijzigde gebieden te handhaven, bereikt SpotEdit efficiënte en precieze beeldbewerking.
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.