Personalización de modelos de texto a imagen con un único par de imágenes
Customizing Text-to-Image Models with a Single Image Pair
May 2, 2024
Autores: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI
Resumen
La reinterpretación artística es la práctica de crear una variación de una obra de referencia, generando una obra emparejada que exhibe un estilo artístico distintivo. Nos preguntamos si dicho par de imágenes puede utilizarse para personalizar un modelo generativo con el fin de capturar la diferencia estilística demostrada. Proponemos Personalización por Pares, un nuevo método de personalización que aprende la diferencia estilística a partir de un único par de imágenes y luego aplica el estilo adquirido al proceso de generación. A diferencia de los métodos existentes que aprenden a imitar un único concepto a partir de una colección de imágenes, nuestro método captura la diferencia estilística entre imágenes emparejadas. Esto nos permite aplicar un cambio estilístico sin sobreajustar el contenido específico de las imágenes en los ejemplos. Para abordar esta nueva tarea, empleamos un método de optimización conjunta que separa explícitamente el estilo y el contenido en espacios de pesos LoRA distintos. Optimizamos estos pesos de estilo y contenido para reproducir las imágenes de estilo y contenido, fomentando su ortogonalidad. Durante la inferencia, modificamos el proceso de difusión mediante una nueva guía de estilo basada en los pesos aprendidos. Tanto los experimentos cualitativos como cuantitativos muestran que nuestro método puede aprender efectivamente el estilo evitando el sobreajuste al contenido de la imagen, destacando el potencial de modelar tales diferencias estilísticas a partir de un único par de imágenes.
English
Art reinterpretation is the practice of creating a variation of a reference
work, making a paired artwork that exhibits a distinct artistic style. We ask
if such an image pair can be used to customize a generative model to capture
the demonstrated stylistic difference. We propose Pair Customization, a new
customization method that learns stylistic difference from a single image pair
and then applies the acquired style to the generation process. Unlike existing
methods that learn to mimic a single concept from a collection of images, our
method captures the stylistic difference between paired images. This allows us
to apply a stylistic change without overfitting to the specific image content
in the examples. To address this new task, we employ a joint optimization
method that explicitly separates the style and content into distinct LoRA
weight spaces. We optimize these style and content weights to reproduce the
style and content images while encouraging their orthogonality. During
inference, we modify the diffusion process via a new style guidance based on
our learned weights. Both qualitative and quantitative experiments show that
our method can effectively learn style while avoiding overfitting to image
content, highlighting the potential of modeling such stylistic differences from
a single image pair.Summary
AI-Generated Summary