TurboEdit: 数ステップの拡散モデルを用いたテキストベース画像編集
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
August 1, 2024
著者: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI
要旨
拡散モデルは、テキストベースの画像編集フレームワークの幅広い可能性を切り開きました。しかし、これらの手法は通常、拡散の逆過程の多段階性に基づいて構築されており、蒸留された高速サンプリング手法に適応させることは驚くほど困難であることが判明しています。本論文では、テキストベース編集フレームワークの中でも特に人気のある「編集に適した」DDPMノイズ反転アプローチに焦点を当てます。我々は、この手法を高速サンプリング手法に適用した際の問題を分析し、その失敗を2つのカテゴリに分類しました:視覚的アーティファクトの出現と、編集強度の不足です。アーティファクトは、反転されたノイズと期待されるノイズスケジュールの間の不一致に起因することを突き止め、このオフセットを補正するシフトノイズスケジュールを提案します。編集強度を高めるため、新しいアーティファクトを導入することなく編集の大きさを効率的に増加させる疑似ガイダンスアプローチを提案します。全体として、我々の手法はわずか3段階の拡散ステップでテキストベースの画像編集を可能にしつつ、人気のあるテキストベース編集アプローチの背後にあるメカニズムに関する新たな知見を提供します。
English
Diffusion models have opened the path to a wide range of text-based image
editing frameworks. However, these typically build on the multi-step nature of
the diffusion backwards process, and adapting them to distilled, fast-sampling
methods has proven surprisingly challenging. Here, we focus on a popular line
of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion
approach. We analyze its application to fast sampling methods and categorize
its failures into two classes: the appearance of visual artifacts, and
insufficient editing strength. We trace the artifacts to mismatched noise
statistics between inverted noises and the expected noise schedule, and suggest
a shifted noise schedule which corrects for this offset. To increase editing
strength, we propose a pseudo-guidance approach that efficiently increases the
magnitude of edits without introducing new artifacts. All in all, our method
enables text-based image editing with as few as three diffusion steps, while
providing novel insights into the mechanisms behind popular text-based editing
approaches.Summary
AI-Generated Summary