단일 이미지 쌍으로 텍스트-이미지 모델 맞춤 설정하기
Customizing Text-to-Image Models with a Single Image Pair
May 2, 2024
저자: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI
초록
예술 재해석은 참조 작품의 변형을 만들어, 독특한 예술적 스타일을 보여주는 짝을 이루는 작품을 만드는 실천입니다. 우리는 이러한 이미지 쌍이 생성 모델을 맞춤화하여 보여준 스타일적 차이를 포착하는 데 사용될 수 있는지 질문합니다. 우리는 단일 이미지 쌍에서 스타일적 차이를 학습한 후 획득한 스타일을 생성 과정에 적용하는 새로운 맞춤화 방법인 'Pair Customization'을 제안합니다. 기존의 방법들이 이미지 컬렉션에서 단일 개념을 모방하는 데 초점을 맞추는 반면, 우리의 방법은 짝을 이루는 이미지 간의 스타일적 차이를 포착합니다. 이를 통해 예시 이미지의 특정 콘텐츠에 과적합되지 않으면서 스타일적 변화를 적용할 수 있습니다. 이 새로운 작업을 해결하기 위해, 우리는 스타일과 콘텐츠를 별도의 LoRA 가중치 공간으로 명시적으로 분리하는 공동 최적화 방법을 사용합니다. 우리는 이러한 스타일과 콘텐츠 가중치를 최적화하여 스타일과 콘텐츠 이미지를 재현하면서, 이들의 직교성을 촉진합니다. 추론 과정에서, 우리는 학습된 가중치를 기반으로 한 새로운 스타일 가이던스를 통해 확산 과정을 수정합니다. 정성적 및 정량적 실험 모두에서 우리의 방법이 이미지 콘텐츠에 과적합되지 않으면서 스타일을 효과적으로 학습할 수 있음을 보여주며, 단일 이미지 쌍에서 이러한 스타일적 차이를 모델링하는 잠재력을 강조합니다.
English
Art reinterpretation is the practice of creating a variation of a reference
work, making a paired artwork that exhibits a distinct artistic style. We ask
if such an image pair can be used to customize a generative model to capture
the demonstrated stylistic difference. We propose Pair Customization, a new
customization method that learns stylistic difference from a single image pair
and then applies the acquired style to the generation process. Unlike existing
methods that learn to mimic a single concept from a collection of images, our
method captures the stylistic difference between paired images. This allows us
to apply a stylistic change without overfitting to the specific image content
in the examples. To address this new task, we employ a joint optimization
method that explicitly separates the style and content into distinct LoRA
weight spaces. We optimize these style and content weights to reproduce the
style and content images while encouraging their orthogonality. During
inference, we modify the diffusion process via a new style guidance based on
our learned weights. Both qualitative and quantitative experiments show that
our method can effectively learn style while avoiding overfitting to image
content, highlighting the potential of modeling such stylistic differences from
a single image pair.Summary
AI-Generated Summary