ChatPaper.aiChatPaper

約7ステップでテキストガイド付き画像編集のための可逆的一貫性蒸留

Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

June 20, 2024
著者: Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk
cs.AI

要旨

拡散蒸留は、少数のサンプリングステップで忠実なテキストから画像生成を実現するための非常に有望な方向性を示しています。しかし、最近の成功にもかかわらず、既存の蒸留モデルはまだ、多くの精密な画像操作手法を可能にする実画像の反転など、拡散モデルの全能力を提供していません。本研究は、蒸留されたテキストから画像への拡散モデルに、実画像をその潜在空間に効果的にエンコードする能力を付与することを目指しています。この目的のために、我々は可逆的Consistency Distillation(iCD)を導入します。これは、わずか3~4回の推論ステップで高品質な画像合成と正確な画像エンコードの両方を可能にする一般化されたConsistency Distillationフレームワークです。テキストから画像への拡散モデルにおける反転問題は、高いクラスフリーガイダンススケールによって悪化しますが、動的ガイダンスが再構成誤差を大幅に減少させ、生成性能の目立った低下を引き起こさないことに気づきました。その結果、動的ガイダンスを備えたiCDが、より高価な最先端の代替手法と競合するゼロショットテキストガイド画像編集のための非常に効果的なツールとして機能し得ることを実証します。
English
Diffusion distillation represents a highly promising direction for achieving faithful text-to-image generation in a few sampling steps. However, despite recent successes, existing distilled models still do not provide the full spectrum of diffusion abilities, such as real image inversion, which enables many precise image manipulation methods. This work aims to enrich distilled text-to-image diffusion models with the ability to effectively encode real images into their latent space. To this end, we introduce invertible Consistency Distillation (iCD), a generalized consistency distillation framework that facilitates both high-quality image synthesis and accurate image encoding in only 3-4 inference steps. Though the inversion problem for text-to-image diffusion models gets exacerbated by high classifier-free guidance scales, we notice that dynamic guidance significantly reduces reconstruction errors without noticeable degradation in generation performance. As a result, we demonstrate that iCD equipped with dynamic guidance may serve as a highly effective tool for zero-shot text-guided image editing, competing with more expensive state-of-the-art alternatives.

Summary

AI-Generated Summary

PDF281December 2, 2024