ChatPaper.aiChatPaper

単一の画像ペアを用いたテキストから画像へのモデルのカスタマイズ

Customizing Text-to-Image Models with a Single Image Pair

May 2, 2024
著者: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI

要旨

アートの再解釈とは、参照作品のバリエーションを作成し、明確な芸術的スタイルを示すペアとなる作品を制作する実践です。本研究では、そのような画像ペアを用いて生成モデルをカスタマイズし、示されたスタイルの違いを捉えることができるかどうかを検討します。我々は、単一の画像ペアからスタイルの違いを学習し、その獲得したスタイルを生成プロセスに適用する新しいカスタマイズ手法「Pair Customization」を提案します。既存の手法が画像の集合から単一の概念を模倣するのに対し、本手法はペアとなった画像間のスタイルの違いを捉えます。これにより、例示された特定の画像内容に過剰適合することなく、スタイルの変化を適用することが可能になります。この新しいタスクに対処するため、我々はスタイルとコンテンツを異なるLoRA重み空間に明示的に分離する共同最適化手法を採用します。これらのスタイルとコンテンツの重みを最適化し、スタイルとコンテンツの画像を再現すると同時に、それらの直交性を促進します。推論時には、学習した重みに基づく新しいスタイルガイダンスを介して拡散プロセスを修正します。定性的および定量的な実験の結果、本手法が画像内容に過剰適合することなく効果的にスタイルを学習できることが示され、単一の画像ペアからそのようなスタイルの違いをモデル化する可能性が浮き彫りになりました。
English
Art reinterpretation is the practice of creating a variation of a reference work, making a paired artwork that exhibits a distinct artistic style. We ask if such an image pair can be used to customize a generative model to capture the demonstrated stylistic difference. We propose Pair Customization, a new customization method that learns stylistic difference from a single image pair and then applies the acquired style to the generation process. Unlike existing methods that learn to mimic a single concept from a collection of images, our method captures the stylistic difference between paired images. This allows us to apply a stylistic change without overfitting to the specific image content in the examples. To address this new task, we employ a joint optimization method that explicitly separates the style and content into distinct LoRA weight spaces. We optimize these style and content weights to reproduce the style and content images while encouraging their orthogonality. During inference, we modify the diffusion process via a new style guidance based on our learned weights. Both qualitative and quantitative experiments show that our method can effectively learn style while avoiding overfitting to image content, highlighting the potential of modeling such stylistic differences from a single image pair.

Summary

AI-Generated Summary

PDF231December 15, 2024