SpotEdit: Edición Selectiva de Regiones en Transformadores de Difusión
SpotEdit: Selective Region Editing in Diffusion Transformers
December 26, 2025
Autores: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI
Resumen
Los modelos de difusión Transformer han avanzado significativamente la edición de imágenes al codificar imágenes condicionales e integrarlas en capas de transformadores. Sin embargo, la mayoría de las ediciones implican modificar solo pequeñas regiones, mientras que los métodos actuales procesan y eliminan ruido de todos los tokens de manera uniforme en cada paso temporal, causando cómputo redundante y potencialmente degradando áreas inalteradas. Esto plantea una pregunta fundamental: ¿Es realmente necesario regenerar cada región durante la edición? Para abordarlo, proponemos SpotEdit, un marco de edición de difusión sin entrenamiento que actualiza selectivamente solo las regiones modificadas. SpotEdit comprende dos componentes clave: SpotSelector identifica regiones estables mediante similitud perceptual y omite su cómputo reutilizando características de imágenes condicionales; SpotFusion combina adaptativamente estas características con tokens editados mediante un mecanismo de fusión dinámica, preservando coherencia contextual y calidad de edición. Al reducir el cómputo innecesario y mantener alta fidelidad en áreas no modificadas, SpotEdit logra una edición de imágenes eficiente y precisa.
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.