ChatPaper.aiChatPaper

DiffEditor: 拡散モデルベースの画像編集における精度と柔軟性の向上

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

February 4, 2024
著者: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI

要旨

大規模なテキストから画像への変換(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらしました。多様で高品質な生成能力を有しているものの、これらの能力を細粒度の画像編集に適用することは依然として困難です。本論文では、既存の拡散ベースの画像編集における2つの弱点を改善するためにDiffEditorを提案します:(1)複雑なシナリオでは、編集結果が編集精度に欠け、予期せぬアーティファクトが生じることが多い;(2)新しいコンテンツを想像するなど、編集操作を調和させる柔軟性が不足している。我々の解決策では、細粒度の画像編集において画像プロンプトを導入し、テキストプロンプトと協調して編集内容をより適切に記述します。内容の一貫性を保ちつつ柔軟性を高めるために、確率微分方程式(SDE)を常微分方程式(ODE)サンプリングに局所的に組み込みます。さらに、拡散サンプリングに地域スコアベースの勾配ガイダンスとタイムトラベル戦略を組み込むことで、編集品質をさらに向上させます。広範な実験により、我々の手法が単一画像内での編集(例:オブジェクトの移動、サイズ変更、コンテンツのドラッグ)や画像間での編集(例:外観の置換、オブジェクトの貼り付け)など、様々な細粒度画像編集タスクにおいて効率的に最先端の性能を達成できることが実証されました。ソースコードはhttps://github.com/MC-E/DragonDiffusionで公開されています。
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image generation over the last few years. Although owning diverse and high-quality generation capabilities, translating these abilities to fine-grained image editing remains challenging. In this paper, we propose DiffEditor to rectify two weaknesses in existing diffusion-based image editing: (1) in complex scenarios, editing results often lack editing accuracy and exhibit unexpected artifacts; (2) lack of flexibility to harmonize editing operations, e.g., imagine new content. In our solution, we introduce image prompts in fine-grained image editing, cooperating with the text prompt to better describe the editing content. To increase the flexibility while maintaining content consistency, we locally combine stochastic differential equation (SDE) into the ordinary differential equation (ODE) sampling. In addition, we incorporate regional score-based gradient guidance and a time travel strategy into the diffusion sampling, further improving the editing quality. Extensive experiments demonstrate that our method can efficiently achieve state-of-the-art performance on various fine-grained image editing tasks, including editing within a single image (e.g., object moving, resizing, and content dragging) and across images (e.g., appearance replacing and object pasting). Our source code is released at https://github.com/MC-E/DragonDiffusion.
PDF81December 15, 2024