EditCrafter:事前学習済み拡散モデルによるチューニング不要の高解像度画像編集
EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model
April 11, 2026
著者: Kunho Kim, Sumin Seo, Yongjun Cho, Hyungjin Chung
cs.AI
要旨
EditCrafterは、高解像度画像編集のための手法であり、チューニングを必要とせず、事前学習済みのテキストから画像への拡散モデルを活用して、学習時に用いられた解像度を大幅に超える解像度の画像を処理する。大規模なT2I拡散モデルが持つ生成的事前知識を活用することで、多様な新しい生成および編集アプリケーションの開発が可能となる。拡散モデルに基づく多くの画像編集手法が提案され、高品質な編集結果を示しているが、それらは学習時の解像度(512x512または1024x1024)でしか動作しないため、任意のアスペクト比やより高解像度の画像には適用が困難である。単純なパッチ単位の編集では、非現実的なオブジェクト構造や繰り返しが生じる。これらの課題に対処するため、我々はシンプルかつ効果的な編集パイプラインであるEditCrafterを提案する。EditCrafterは、まず入力高解像度画像の元の識別性を保持するタイル化逆変換を実行する。さらに、逆変換された潜在変数からの高解像度画像編集に特化した、ノイズ減衰マニフォールド制約付き分類器不要ガイダンス(NDCFG++)を提案する。実験により、提案するEditCrafterが、ファインチューニングや最適化を必要とせず、様々な解像度において印象的な編集結果を達成できることを示す。
English
We propose EditCrafter, a high-resolution image editing method that operates without tuning, leveraging pretrained text-to-image (T2I) diffusion models to process images at resolutions significantly exceeding those used during training. Leveraging the generative priors of large-scale T2I diffusion models enables the development of a wide array of novel generation and editing applications. Although numerous image editing methods have been proposed based on diffusion models and exhibit high-quality editing results, they are difficult to apply to images with arbitrary aspect ratios or higher resolutions since they only work at the training resolutions (512x512 or 1024x1024). Naively applying patch-wise editing fails with unrealistic object structures and repetition. To address these challenges, we introduce EditCrafter, a simple yet effective editing pipeline. EditCrafter operates by first performing tiled inversion, which preserves the original identity of the input high-resolution image. We further propose a noise-damped manifold-constrained classifier-free guidance (NDCFG++) that is tailored for high resolution image editing from the inverted latent. Our experiments show that the our EditCrafter can achieve impressive editing results across various resolutions without fine-tuning and optimization.