Personalización de modelos de texto a imagen con un único par de imágenes

Resumen

La reinterpretación artística es la práctica de crear una variación de una obra de referencia, generando una obra emparejada que exhibe un estilo artístico distintivo. Nos preguntamos si dicho par de imágenes puede utilizarse para personalizar un modelo generativo con el fin de capturar la diferencia estilística demostrada. Proponemos Personalización por Pares, un nuevo método de personalización que aprende la diferencia estilística a partir de un único par de imágenes y luego aplica el estilo adquirido al proceso de generación. A diferencia de los métodos existentes que aprenden a imitar un único concepto a partir de una colección de imágenes, nuestro método captura la diferencia estilística entre imágenes emparejadas. Esto nos permite aplicar un cambio estilístico sin sobreajustar el contenido específico de las imágenes en los ejemplos. Para abordar esta nueva tarea, empleamos un método de optimización conjunta que separa explícitamente el estilo y el contenido en espacios de pesos LoRA distintos. Optimizamos estos pesos de estilo y contenido para reproducir las imágenes de estilo y contenido, fomentando su ortogonalidad. Durante la inferencia, modificamos el proceso de difusión mediante una nueva guía de estilo basada en los pesos aprendidos. Tanto los experimentos cualitativos como cuantitativos muestran que nuestro método puede aprender efectivamente el estilo evitando el sobreajuste al contenido de la imagen, destacando el potencial de modelar tales diferencias estilísticas a partir de un único par de imágenes.

English

Art reinterpretation is the practice of creating a variation of a reference work, making a paired artwork that exhibits a distinct artistic style. We ask if such an image pair can be used to customize a generative model to capture the demonstrated stylistic difference. We propose Pair Customization, a new customization method that learns stylistic difference from a single image pair and then applies the acquired style to the generation process. Unlike existing methods that learn to mimic a single concept from a collection of images, our method captures the stylistic difference between paired images. This allows us to apply a stylistic change without overfitting to the specific image content in the examples. To address this new task, we employ a joint optimization method that explicitly separates the style and content into distinct LoRA weight spaces. We optimize these style and content weights to reproduce the style and content images while encouraging their orthogonality. During inference, we modify the diffusion process via a new style guidance based on our learned weights. Both qualitative and quantitative experiments show that our method can effectively learn style while avoiding overfitting to image content, highlighting the potential of modeling such stylistic differences from a single image pair.

Personalización de modelos de texto a imagen con un único par de imágenes

Customizing Text-to-Image Models with a Single Image Pair

Resumen

Support