DragonDiffusion: 拡散モデルにおけるドラッグスタイル操作の実現
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
July 5, 2023
著者: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI
要旨
既存の大規模なテキストから画像(T2I)生成モデルは、詳細なテキスト記述から高品質な画像を生成する能力を有しているものの、生成された画像や実画像を精密に編集する能力に欠けていることが多い。本論文では、Dragスタイルの操作をDiffusionモデルに可能にする新しい画像編集手法、DragonDiffusionを提案する。具体的には、Diffusionモデルの中間特徴の強い対応関係に基づいて分類器ガイダンスを構築する。これにより、編集信号を特徴対応損失を介して勾配に変換し、Diffusionモデルの中間表現を修正することができる。このガイダンス戦略に基づき、セマンティックおよびジオメトリックなアラインメントを考慮したマルチスケールガイダンスも構築する。さらに、オリジナル画像と編集結果の一貫性を維持するために、クロスブランチ自己注意機構を追加する。本手法は、効率的な設計により、生成画像や実画像に対して、オブジェクトの移動、サイズ変更、外観の置換、コンテンツのドラッグなど、さまざまな編集モードを実現する。注目すべきは、すべての編集およびコンテンツ保存信号が画像自体から得られ、モデルのファインチューニングや追加モジュールを必要としない点である。ソースコードはhttps://github.com/MC-E/DragonDiffusionで公開予定である。
English
Despite the ability of existing large-scale text-to-image (T2I) models to
generate high-quality images from detailed textual descriptions, they often
lack the ability to precisely edit the generated or real images. In this paper,
we propose a novel image editing method, DragonDiffusion, enabling Drag-style
manipulation on Diffusion models. Specifically, we construct classifier
guidance based on the strong correspondence of intermediate features in the
diffusion model. It can transform the editing signals into gradients via
feature correspondence loss to modify the intermediate representation of the
diffusion model. Based on this guidance strategy, we also build a multi-scale
guidance to consider both semantic and geometric alignment. Moreover, a
cross-branch self-attention is added to maintain the consistency between the
original image and the editing result. Our method, through an efficient design,
achieves various editing modes for the generated or real images, such as object
moving, object resizing, object appearance replacement, and content dragging.
It is worth noting that all editing and content preservation signals come from
the image itself, and the model does not require fine-tuning or additional
modules. Our source code will be available at
https://github.com/MC-E/DragonDiffusion.