Personalizando Modelos de Texto para Imagem com um Único Par de Imagens
Customizing Text-to-Image Models with a Single Image Pair
May 2, 2024
Autores: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI
Resumo
A reinterpretação artística é a prática de criar uma variação de uma obra de referência, produzindo uma obra emparelhada que exibe um estilo artístico distinto. Investigamos se tal par de imagens pode ser usado para personalizar um modelo generativo, capturando a diferença estilística demonstrada. Propomos o Pair Customization, um novo método de personalização que aprende a diferença estilística a partir de um único par de imagens e, em seguida, aplica o estilo adquirido ao processo de geração. Diferente dos métodos existentes que aprendem a imitar um único conceito a partir de uma coleção de imagens, nosso método captura a diferença estilística entre imagens emparelhadas. Isso nos permite aplicar uma mudança estilística sem sobreajustar ao conteúdo específico das imagens nos exemplos. Para abordar essa nova tarefa, empregamos um método de otimização conjunta que separa explicitamente o estilo e o conteúdo em espaços de pesos LoRA distintos. Otimizamos esses pesos de estilo e conteúdo para reproduzir as imagens de estilo e conteúdo, ao mesmo tempo em que incentivamos sua ortogonalidade. Durante a inferência, modificamos o processo de difusão por meio de uma nova orientação de estilo baseada em nossos pesos aprendidos. Experimentos qualitativos e quantitativos mostram que nosso método pode aprender efetivamente o estilo enquanto evita o sobreajuste ao conteúdo da imagem, destacando o potencial de modelar tais diferenças estilísticas a partir de um único par de imagens.
English
Art reinterpretation is the practice of creating a variation of a reference
work, making a paired artwork that exhibits a distinct artistic style. We ask
if such an image pair can be used to customize a generative model to capture
the demonstrated stylistic difference. We propose Pair Customization, a new
customization method that learns stylistic difference from a single image pair
and then applies the acquired style to the generation process. Unlike existing
methods that learn to mimic a single concept from a collection of images, our
method captures the stylistic difference between paired images. This allows us
to apply a stylistic change without overfitting to the specific image content
in the examples. To address this new task, we employ a joint optimization
method that explicitly separates the style and content into distinct LoRA
weight spaces. We optimize these style and content weights to reproduce the
style and content images while encouraging their orthogonality. During
inference, we modify the diffusion process via a new style guidance based on
our learned weights. Both qualitative and quantitative experiments show that
our method can effectively learn style while avoiding overfitting to image
content, highlighting the potential of modeling such stylistic differences from
a single image pair.