DiffEditor: 拡散モデルベースの画像編集における精度と柔軟性の向上
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing
February 4, 2024
著者: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
要旨
大規模なテキストから画像への変換(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらしました。多様で高品質な生成能力を有しているものの、これらの能力を細粒度の画像編集に適用することは依然として困難です。本論文では、既存の拡散ベースの画像編集における2つの弱点を改善するためにDiffEditorを提案します:(1)複雑なシナリオでは、編集結果が編集精度に欠け、予期せぬアーティファクトが生じることが多い;(2)新しいコンテンツを想像するなど、編集操作を調和させる柔軟性が不足している。我々の解決策では、細粒度の画像編集において画像プロンプトを導入し、テキストプロンプトと協調して編集内容をより適切に記述します。内容の一貫性を保ちつつ柔軟性を高めるために、確率微分方程式(SDE)を常微分方程式(ODE)サンプリングに局所的に組み込みます。さらに、拡散サンプリングに地域スコアベースの勾配ガイダンスとタイムトラベル戦略を組み込むことで、編集品質をさらに向上させます。広範な実験により、我々の手法が単一画像内での編集(例:オブジェクトの移動、サイズ変更、コンテンツのドラッグ)や画像間での編集(例:外観の置換、オブジェクトの貼り付け)など、様々な細粒度画像編集タスクにおいて効率的に最先端の性能を達成できることが実証されました。ソースコードはhttps://github.com/MC-E/DragonDiffusionで公開されています。
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image
generation over the last few years. Although owning diverse and high-quality
generation capabilities, translating these abilities to fine-grained image
editing remains challenging. In this paper, we propose DiffEditor to rectify
two weaknesses in existing diffusion-based image editing: (1) in complex
scenarios, editing results often lack editing accuracy and exhibit unexpected
artifacts; (2) lack of flexibility to harmonize editing operations, e.g.,
imagine new content. In our solution, we introduce image prompts in
fine-grained image editing, cooperating with the text prompt to better describe
the editing content. To increase the flexibility while maintaining content
consistency, we locally combine stochastic differential equation (SDE) into the
ordinary differential equation (ODE) sampling. In addition, we incorporate
regional score-based gradient guidance and a time travel strategy into the
diffusion sampling, further improving the editing quality. Extensive
experiments demonstrate that our method can efficiently achieve
state-of-the-art performance on various fine-grained image editing tasks,
including editing within a single image (e.g., object moving, resizing, and
content dragging) and across images (e.g., appearance replacing and object
pasting). Our source code is released at
https://github.com/MC-E/DragonDiffusion.