カスタム編集:カスタマイズされた拡散モデルを用いたテキスト誘導型画像編集
Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models
May 25, 2023
著者: Jooyoung Choi, Yunjey Choi, Yunji Kim, Junho Kim, Sungroh Yoon
cs.AI
要旨
テキストから画像を生成する拡散モデルは、ユーザーが提供するテキストプロンプトに基づいて多様で高精細な画像を生成できます。最近の研究では、これらのモデルを拡張し、テキストガイドによる画像編集をサポートしています。テキストガイダンスはユーザーにとって直感的な編集インターフェースですが、ユーザーが伝えたい正確な概念を保証できないことがしばしばあります。この問題を解決するため、私たちはCustom-Editを提案します。Custom-Editでは、(i) 少数の参照画像を用いて拡散モデルをカスタマイズし、(ii) テキストガイドによる編集を行います。私たちの重要な発見は、拡張プロンプトを用いて言語関連のパラメータのみをカスタマイズすることで、参照画像との類似性を大幅に向上させつつ、元画像との類似性を維持できることです。さらに、各カスタマイズと編集プロセスにおけるレシピを提供します。人気のあるカスタマイズ手法を比較し、複数のデータセットを用いた2つの編集手法で私たちの知見を検証します。
English
Text-to-image diffusion models can generate diverse, high-fidelity images
based on user-provided text prompts. Recent research has extended these models
to support text-guided image editing. While text guidance is an intuitive
editing interface for users, it often fails to ensure the precise concept
conveyed by users. To address this issue, we propose Custom-Edit, in which we
(i) customize a diffusion model with a few reference images and then (ii)
perform text-guided editing. Our key discovery is that customizing only
language-relevant parameters with augmented prompts improves reference
similarity significantly while maintaining source similarity. Moreover, we
provide our recipe for each customization and editing process. We compare
popular customization methods and validate our findings on two editing methods
using various datasets.