SpotEdit: Diffusion Transformer의 선택적 영역 편집
SpotEdit: Selective Region Editing in Diffusion Transformers
December 26, 2025
저자: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI
초록
디퓨전 트랜스포머 모델은 조건부 이미지를 인코딩하고 트랜스포머 레이어에 통합함으로써 이미지 편집 기술을 크게 발전시켰습니다. 그러나 대부분의 편집은 작은 영역만 수정하는 반면, 현재의 방법들은 모든 타임스텝에서 모든 토큰을 균일하게 처리하고 노이즈를 제거하여 불필요한 계산을 초래하고 변경되지 않은 영역의 품질을 저하시킬 수 있습니다. 이는 편집 과정에서 정말로 모든 영역을 재생성해야 하는지에 대한 근본적인 의문을 제기합니다. 이를 해결하기 위해 본 연구에서는 수정된 영역만 선택적으로 업데이트하는 학습이 필요 없는 디퓨전 편집 프레임워크인 SpotEdit를 제안합니다. SpotEdit는 두 가지 핵심 구성 요소로 이루어집니다: SpotSelector는 perceptual 유사도를 통해 안정적인 영역을 식별하고 조건부 이미지 특징을 재사용하여 해당 영역의 계산을 생략합니다; SpotFusion은 동적 융합 메커니즘을 통해 이러한 특징을 편집된 토큰과 적응적으로 혼합하여 맥락적 일관성과 편집 품질을 유지합니다. 불필요한 계산을 줄이고 수정되지 않은 영역의 높은 정확도를 유지함으로써 SpotEdit는 효율적이고 정밀한 이미지 편집을 달성합니다.
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.