SpotEdit: Modifica Selettiva della Regione nei Trasformatori Diffusivi
SpotEdit: Selective Region Editing in Diffusion Transformers
December 26, 2025
Autori: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI
Abstract
I modelli Diffusion Transformer hanno fatto progredire significativamente l'editing delle immagini codificando immagini condizionali e integrandole negli strati del transformer. Tuttavia, la maggior parte degli interventi di modifica coinvolge solo piccole regioni, mentre i metodi attuali processano e rimuovono il rumore in modo uniforme per tutti i token a ogni step temporale, causando calcoli ridondanti e potenzialmente degradando le aree non modificate. Ciò solleva una questione fondamentale: è veramente necessario rigenerare ogni regione durante l'editing? Per affrontare questo problema, proponiamo SpotEdit, un framework di editing per diffusion che non richiede training e aggiorna selettivamente solo le regioni modificate. SpotEdit comprende due componenti chiave: SpotSelector identifica le regioni stabili tramite similarità percettiva e salta il loro calcolo riutilizzando le caratteristiche dell'immagine condizionale; SpotFusion fonde adattivamente queste caratteristiche con i token modificati attraverso un meccanismo di fusione dinamica, preservando la coerenza contestuale e la qualità dell'editing. Riducendo i calcoli non necessari e mantenendo un'alta fedeltà nelle aree non modificate, SpotEdit raggiunge un editing di immagini efficiente e preciso.
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.