SpotEdit: Edição Seletiva de Regiões em Transformadores de Difusão

Resumo

Os modelos de difusão baseados em transformadores avançaram significativamente a edição de imagens ao codificar imagens condicionais e integrá-las nas camadas do transformador. No entanto, a maioria das edições envolve modificar apenas pequenas regiões, enquanto os métodos atuais processam e removem ruído de todos os tokens de forma uniforme em cada passo temporal, causando computação redundante e potencialmente degradando áreas inalteradas. Isto levanta uma questão fundamental: Será realmente necessário regenerar todas as regiões durante a edição? Para abordar este problema, propomos o SpotEdit, uma estrutura de edição por difusão livre de treinamento que atualiza seletivamente apenas as regiões modificadas. O SpotEdit compreende dois componentes principais: o SpotSelector identifica regiões estáveis através de similaridade perceptual e ignora sua computação reutilizando características da imagem condicional; o SpotFusion combina adaptativamente estas características com tokens editados através de um mecanismo de fusão dinâmica, preservando a coerência contextual e a qualidade de edição. Ao reduzir a computação desnecessária e manter alta fidelidade em áreas não modificadas, o SpotEdit alcança uma edição de imagem eficiente e precisa.

English

Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.