SpotEdit : Édition sélective de régions dans les transformateurs de diffusion
SpotEdit: Selective Region Editing in Diffusion Transformers
December 26, 2025
papers.authors: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI
papers.abstract
Les modèles de diffusion par transformateurs ont considérablement fait progresser l'édition d'images en encodant des images conditionnelles et en les intégrant dans les couches du transformateur. Cependant, la plupart des modifications concernent de petites régions, tandis que les méthodes actuelles traitent et débruîtent uniformément tous les tokens à chaque pas de temps, entraînant des calculs redondants et une dégradation potentielle des zones inchangées. Cela soulève une question fondamentale : est-il vraiment nécessaire de régénérer chaque région lors de l'édition ? Pour y répondre, nous proposons SpotEdit, un framework d'édition par diffusion sans apprentissage qui met à jour sélectivement uniquement les régions modifiées. SpotEdit comprend deux composants clés : SpotSelector identifie les régions stables via une similarité perceptuelle et ignore leur calcul en réutilisant les caractéristiques de l'image conditionnelle ; SpotFusion fusionne adaptativement ces caractéristiques avec les tokens édités grâce à un mécanisme de fusion dynamique, préservant la cohérence contextuelle et la qualité de l'édition. En réduisant les calculs inutiles et en maintenant une haute fidélité dans les zones non modifiées, SpotEdit permet une édition d'image efficace et précise.
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.