ChatPaper.aiChatPaper

LEDITS: DDPM逆変換とセマンティックガイダンスによる実画像編集

LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance

July 2, 2023
著者: Linoy Tsaban, Apolinário Passos
cs.AI

要旨

最近の大規模なテキスト誘導型拡散モデルは、強力な画像生成能力を提供しています。現在、これらの画像をテキストのみを用いて直感的かつ多様に編集するための手法の開発に多大な努力が注がれています。しかし、編集技術の本質的な性質として、元の画像から特定の内容を保持する必要があるため、これらの生成モデルによる編集は困難であることが判明しています。一方、テキストベースのモデルでは、テキストプロンプトのわずかな変更でも全く異なる結果が得られることが多く、ユーザーの意図に正確に対応したワンショット生成を実現することは非常に困難です。さらに、最先端のツールを使用して実画像を編集するためには、まず画像を事前学習済みモデルの領域に反転させる必要があり、これが編集品質や遅延に影響を与える要因となっています。この探索的レポートでは、LEDITSを提案します。これは、実画像編集のための軽量な統合アプローチであり、Edit Friendly DDPM反転技術とセマンティックガイダンスを組み合わせることで、セマンティックガイダンスを実画像編集に拡張しつつ、DDPM反転の編集能力も活用します。このアプローチは、微妙な編集から大規模な編集、構図やスタイルの変更まで多様な編集を実現し、最適化やアーキテクチャの拡張を必要としません。
English
Recent large-scale text-guided diffusion models provide powerful image-generation capabilities. Currently, a significant effort is given to enable the modification of these images using text only as means to offer intuitive and versatile editing. However, editing proves to be difficult for these generative models due to the inherent nature of editing techniques, which involves preserving certain content from the original image. Conversely, in text-based models, even minor modifications to the text prompt frequently result in an entirely distinct result, making attaining one-shot generation that accurately corresponds to the users intent exceedingly challenging. In addition, to edit a real image using these state-of-the-art tools, one must first invert the image into the pre-trained models domain - adding another factor affecting the edit quality, as well as latency. In this exploratory report, we propose LEDITS - a combined lightweight approach for real-image editing, incorporating the Edit Friendly DDPM inversion technique with Semantic Guidance, thus extending Semantic Guidance to real image editing, while harnessing the editing capabilities of DDPM inversion as well. This approach achieves versatile edits, both subtle and extensive as well as alterations in composition and style, while requiring no optimization nor extensions to the architecture.
PDF321December 15, 2024