Guide-and-Rescale: 効果的なチューニング不要の実画像編集のための自己ガイダンス機構
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing
September 2, 2024
著者: Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
cs.AI
要旨
大規模なテキストから画像への生成モデルの最近の進展にもかかわらず、これらのモデルを用いて実画像を操作することは依然として難しい問題である。既存の編集手法の主な制約は、広範な画像編集に対して一貫した品質を発揮できないか、あるいは入力画像の特定の外観を維持するために時間のかかるハイパーパラメータの調整や拡散モデルのファインチューニングを必要とすることである。我々は、ガイダンス機構を介した修正された拡散サンプリングプロセスに基づく新しいアプローチを提案する。本研究では、入力画像の全体的な構造と編集すべきでない局所領域の外観を維持するために、自己ガイダンス技術を探求する。特に、ソース画像の局所的および大域的な構造を保存することを目的としたレイアウト保存エネルギー関数を明示的に導入する。さらに、生成中にクラスファリーフリーガイダンスと提案するガイダーのノルムをバランスさせることで、ノイズ分布を維持するノイズ再スケーリング機構を提案する。このようなガイダンスアプローチは、拡散モデルのファインチューニングや正確な反転プロセスを必要としない。その結果、提案手法は高速で高品質な編集メカニズムを提供する。実験では、人間による評価と定量的分析を通じて、提案手法が人間により好まれる望ましい編集を実現し、編集品質と元の画像の保存の間のより良いトレードオフを達成することを示す。我々のコードはhttps://github.com/FusionBrainLab/Guide-and-Rescaleで公開されている。
English
Despite recent advances in large-scale text-to-image generative models,
manipulating real images with these models remains a challenging problem. The
main limitations of existing editing methods are that they either fail to
perform with consistent quality on a wide range of image edits or require
time-consuming hyperparameter tuning or fine-tuning of the diffusion model to
preserve the image-specific appearance of the input image. We propose a novel
approach that is built upon a modified diffusion sampling process via the
guidance mechanism. In this work, we explore the self-guidance technique to
preserve the overall structure of the input image and its local regions
appearance that should not be edited. In particular, we explicitly introduce
layout-preserving energy functions that are aimed to save local and global
structures of the source image. Additionally, we propose a noise rescaling
mechanism that allows to preserve noise distribution by balancing the norms of
classifier-free guidance and our proposed guiders during generation. Such a
guiding approach does not require fine-tuning the diffusion model and exact
inversion process. As a result, the proposed method provides a fast and
high-quality editing mechanism. In our experiments, we show through human
evaluation and quantitative analysis that the proposed method allows to produce
desired editing which is more preferable by humans and also achieves a better
trade-off between editing quality and preservation of the original image. Our
code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.