単一画像ペアによるテキストから画像へのモデルカスタマイズ
Customizing Text-to-Image Models with a Single Image Pair
May 2, 2024
著者: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI
要旨
芸術的再解釈とは、参照作品に基づいたバリエーションを作成し、明確な芸術的スタイルを示す対をなす作品を生み出す実践である。本研究では、このような画像ペアを用いて、示されたスタイルの差異を捉えるために生成モデルをカスタマイズできるかどうかを問う。我々は「Pair Customization」という新しいカスタマイズ手法を提案する。これは単一の画像ペアからスタイル的差異を学習し、獲得したスタイルを生成プロセスに適用するものである。画像コレクションから単一の概念を模倣するように学習する既存手法とは異なり、本手法は対をなす画像間のスタイル的差異を捉える。これにより、事例における特定の画像内容への過剰適合を避けつつ、スタイル的変化を適用することが可能となる。この新たな課題に対処するため、スタイルとコンテンツを異なるLoRA重み空間に明示的に分離する共同最適化手法を採用する。これらのスタイル重みとコンテンツ重みを最適化し、スタイル画像とコンテンツ画像を再現すると同時に、それらの直交性を促進する。推論時には、学習された重みに基づく新しいスタイルガイダンスによって拡散プロセスを修正する。定性的・定量的な実験の両方において、本手法が画像内容への過剰適合を回避しつつ効果的にスタイルを学習できることを示し、単一の画像ペアからこのようなスタイル的差異をモデル化する可能性を浮き彫りにする。
English
Art reinterpretation is the practice of creating a variation of a reference
work, making a paired artwork that exhibits a distinct artistic style. We ask
if such an image pair can be used to customize a generative model to capture
the demonstrated stylistic difference. We propose Pair Customization, a new
customization method that learns stylistic difference from a single image pair
and then applies the acquired style to the generation process. Unlike existing
methods that learn to mimic a single concept from a collection of images, our
method captures the stylistic difference between paired images. This allows us
to apply a stylistic change without overfitting to the specific image content
in the examples. To address this new task, we employ a joint optimization
method that explicitly separates the style and content into distinct LoRA
weight spaces. We optimize these style and content weights to reproduce the
style and content images while encouraging their orthogonality. During
inference, we modify the diffusion process via a new style guidance based on
our learned weights. Both qualitative and quantitative experiments show that
our method can effectively learn style while avoiding overfitting to image
content, highlighting the potential of modeling such stylistic differences from
a single image pair.