Instruct-CLIP:コントラスティブ学習を用いた自動データ精製による指示誘導型画像編集の改善
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
March 24, 2025
著者: Sherry X. Chen, Misha Sra, Pradeep Sen
cs.AI
要旨
自然言語による指示は自動画像編集を直感的にガイドする方法を提供しますが、深層学習モデルは高品質な結果を達成するのに苦戦することが多く、その主な原因は大規模で高品質なトレーニングデータセットの作成における課題にあります。従来の研究では、テキストから画像(T2I)を生成するモデルに依存して、指示に基づく画像編集モデルの入力/出力をシミュレートする元画像と編集画像のペアを生成することが一般的でした。しかし、これらの画像ペアはT2Iモデルの制限により、指定された編集指示にうまく整合しないことが多く、そのようなデータセットでトレーニングされたモデルに悪影響を及ぼします。この問題に対処するため、我々はInstruct-CLIPを提案します。これは自己教師ありの手法で、元画像と編集画像の間の意味的変化を学習し、既存のデータセット内の指示を洗練し、より整合させるものです。さらに、Instruct-CLIPをノイジーな潜在画像と拡散タイムステップに対応させることで、潜在拡散モデル(LDMs)[19]のトレーニングに使用し、拡散パイプラインの任意のステップで編集指示と画像変化の潜在空間における整合性を効率的に強化できるようにしました。我々はInstruct-CLIPを使用してInstructPix2Pixデータセットを修正し、12万以上の洗練されたサンプルを取得し、それを我々の新しいInstruct-CLIPベースの損失関数に基づいてモデルのファインチューニングに使用しました。その結果、与えられた指示により整合した編集を生成できるモデルが得られました。我々のコードとデータセットはhttps://github.com/SherryXTChen/Instruct-CLIP.gitで公開されています。
English
Although natural language instructions offer an intuitive way to guide
automated image editing, deep-learning models often struggle to achieve
high-quality results, largely due to challenges in creating large, high-quality
training datasets. Previous work has typically relied on text-toimage (T2I)
generative models to produce pairs of original and edited images that simulate
the input/output of an instruction-guided image-editing model. However, these
image pairs often fail to align with the specified edit instructions due to the
limitations of T2I models, which negatively impacts models trained on such
datasets. To address this, we present Instruct-CLIP, a self-supervised method
that learns the semantic changes between original and edited images to refine
and better align the instructions in existing datasets. Furthermore, we adapt
Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it
can be used to train latent diffusion models (LDMs) [19] and efficiently
enforce alignment between the edit instruction and the image changes in latent
space at any step of the diffusion pipeline. We use Instruct-CLIP to correct
the InstructPix2Pix dataset and get over 120K refined samples we then use to
fine-tune their model, guided by our novel Instruct-CLIP-based loss function.
The resulting model can produce edits that are more aligned with the given
instructions. Our code and dataset are available at
https://github.com/SherryXTChen/Instruct-CLIP.git.Summary
AI-Generated Summary