SpotEdit: 拡散トランスフォーマーにおける選択的領域編集
SpotEdit: Selective Region Editing in Diffusion Transformers
December 26, 2025
著者: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang
cs.AI
要旨
拡散トランスフォーマーモデルは、条件画像を符号化しトランスフォーマー層に統合することで、画像編集技術を大幅に進展させてきました。しかし、ほとんどの編集作業では小さな領域のみが変更されるのに対し、現在の手法では全てのトークンを毎タイムステップで均一に処理・ノイズ除去するため、冗長な計算が発生し、変更のない領域の品質劣化を招く可能性があります。これは根本的な疑問を提起します:編集時に本当に全ての領域を再生成する必要があるのでしょうか?
この課題に対処するため、我々は変更領域のみを選択的に更新する学習不要の拡散編集フレームワーク「SpotEdit」を提案します。SpotEditは二つの主要コンポーネントで構成されます:SpotSelectorは知覚的類似性に基づいて安定領域を特定し、条件画像特徴の再利用により計算を省略します。SpotFusionは動的融合メカニズムを通じてこれらの特徴を編集済みトークンと適応的に統合し、文脈的一貫性と編集品質を保持します。不要な計算を削減し、未変更領域の高忠実性を維持することで、SpotEditは効率的かつ精密な画像編集を実現します。
English
Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.