Personnalisation des modèles texte-image avec une seule paire d'images
Customizing Text-to-Image Models with a Single Image Pair
May 2, 2024
Auteurs: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI
Résumé
La réinterprétation artistique consiste à créer une variation d'une œuvre de référence, produisant ainsi une paire d'œuvres qui présente un style artistique distinct. Nous nous demandons si une telle paire d'images peut être utilisée pour personnaliser un modèle génératif afin de capturer la différence stylistique démontrée. Nous proposons Pair Customization, une nouvelle méthode de personnalisation qui apprend la différence stylistique à partir d'une seule paire d'images, puis applique le style acquis au processus de génération. Contrairement aux méthodes existantes qui apprennent à imiter un seul concept à partir d'une collection d'images, notre méthode capture la différence stylistique entre les images appariées. Cela nous permet d'appliquer un changement stylistique sans surapprentissage au contenu spécifique des images dans les exemples. Pour aborder cette nouvelle tâche, nous utilisons une méthode d'optimisation conjointe qui sépare explicitement le style et le contenu dans des espaces de poids LoRA distincts. Nous optimisons ces poids de style et de contenu pour reproduire les images de style et de contenu tout en encourageant leur orthogonalité. Pendant l'inférence, nous modifions le processus de diffusion via un nouveau guidage stylistique basé sur les poids appris. Les expériences qualitatives et quantitatives montrent que notre méthode peut apprendre efficacement le style tout en évitant le surapprentissage au contenu de l'image, mettant en lumière le potentiel de modélisation de telles différences stylistiques à partir d'une seule paire d'images.
English
Art reinterpretation is the practice of creating a variation of a reference
work, making a paired artwork that exhibits a distinct artistic style. We ask
if such an image pair can be used to customize a generative model to capture
the demonstrated stylistic difference. We propose Pair Customization, a new
customization method that learns stylistic difference from a single image pair
and then applies the acquired style to the generation process. Unlike existing
methods that learn to mimic a single concept from a collection of images, our
method captures the stylistic difference between paired images. This allows us
to apply a stylistic change without overfitting to the specific image content
in the examples. To address this new task, we employ a joint optimization
method that explicitly separates the style and content into distinct LoRA
weight spaces. We optimize these style and content weights to reproduce the
style and content images while encouraging their orthogonality. During
inference, we modify the diffusion process via a new style guidance based on
our learned weights. Both qualitative and quantitative experiments show that
our method can effectively learn style while avoiding overfitting to image
content, highlighting the potential of modeling such stylistic differences from
a single image pair.Summary
AI-Generated Summary