Personnalisation des modèles texte-image avec une seule paire d'images

papers.abstract

La réinterprétation artistique consiste à créer une variation d'une œuvre de référence, produisant ainsi une paire d'œuvres qui présente un style artistique distinct. Nous nous demandons si une telle paire d'images peut être utilisée pour personnaliser un modèle génératif afin de capturer la différence stylistique démontrée. Nous proposons Pair Customization, une nouvelle méthode de personnalisation qui apprend la différence stylistique à partir d'une seule paire d'images, puis applique le style acquis au processus de génération. Contrairement aux méthodes existantes qui apprennent à imiter un seul concept à partir d'une collection d'images, notre méthode capture la différence stylistique entre les images appariées. Cela nous permet d'appliquer un changement stylistique sans surapprentissage au contenu spécifique des images dans les exemples. Pour aborder cette nouvelle tâche, nous utilisons une méthode d'optimisation conjointe qui sépare explicitement le style et le contenu dans des espaces de poids LoRA distincts. Nous optimisons ces poids de style et de contenu pour reproduire les images de style et de contenu tout en encourageant leur orthogonalité. Pendant l'inférence, nous modifions le processus de diffusion via un nouveau guidage stylistique basé sur les poids appris. Les expériences qualitatives et quantitatives montrent que notre méthode peut apprendre efficacement le style tout en évitant le surapprentissage au contenu de l'image, mettant en lumière le potentiel de modélisation de telles différences stylistiques à partir d'une seule paire d'images.

English

Art reinterpretation is the practice of creating a variation of a reference work, making a paired artwork that exhibits a distinct artistic style. We ask if such an image pair can be used to customize a generative model to capture the demonstrated stylistic difference. We propose Pair Customization, a new customization method that learns stylistic difference from a single image pair and then applies the acquired style to the generation process. Unlike existing methods that learn to mimic a single concept from a collection of images, our method captures the stylistic difference between paired images. This allows us to apply a stylistic change without overfitting to the specific image content in the examples. To address this new task, we employ a joint optimization method that explicitly separates the style and content into distinct LoRA weight spaces. We optimize these style and content weights to reproduce the style and content images while encouraging their orthogonality. During inference, we modify the diffusion process via a new style guidance based on our learned weights. Both qualitative and quantitative experiments show that our method can effectively learn style while avoiding overfitting to image content, highlighting the potential of modeling such stylistic differences from a single image pair.

Personnalisation des modèles texte-image avec une seule paire d'images

Customizing Text-to-Image Models with a Single Image Pair

papers.abstract

Support