StyleDrop: Geração de Imagens a partir de Texto em Qualquer Estilo
StyleDrop: Text-to-Image Generation in Any Style
June 1, 2023
Autores: Kihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, Dilip Krishnan
cs.AI
Resumo
Modelos pré-treinados de grande escala para síntese de texto em imagem geram imagens impressionantes com o uso adequado de prompts de texto. No entanto, as ambiguidades inerentes à linguagem natural e os efeitos de distribuição fora do domínio tornam difícil sintetizar estilos de imagem que aproveitem um padrão de design, textura ou material específico. Neste artigo, apresentamos o StyleDrop, um método que possibilita a síntese de imagens que seguem fielmente um estilo específico utilizando um modelo de texto em imagem. O método proposto é extremamente versátil e captura nuances e detalhes de um estilo fornecido pelo usuário, como esquemas de cores, sombreamento, padrões de design e efeitos locais e globais. Ele aprende eficientemente um novo estilo ao ajustar poucos parâmetros treináveis (menos de 1% do total de parâmetros do modelo) e melhora a qualidade por meio de treinamento iterativo com feedback humano ou automatizado. Melhor ainda, o StyleDrop é capaz de entregar resultados impressionantes mesmo quando o usuário fornece apenas uma única imagem que especifica o estilo desejado. Um estudo extensivo mostra que, para a tarefa de ajuste de estilo em modelos de texto em imagem, o StyleDrop implementado no Muse supera convincentemente outros métodos, incluindo DreamBooth e inversão textual no Imagen ou Stable Diffusion. Mais resultados estão disponíveis em nosso site do projeto: https://styledrop.github.io.
English
Pre-trained large text-to-image models synthesize impressive images with an
appropriate use of text prompts. However, ambiguities inherent in natural
language and out-of-distribution effects make it hard to synthesize image
styles, that leverage a specific design pattern, texture or material. In this
paper, we introduce StyleDrop, a method that enables the synthesis of images
that faithfully follow a specific style using a text-to-image model. The
proposed method is extremely versatile and captures nuances and details of a
user-provided style, such as color schemes, shading, design patterns, and local
and global effects. It efficiently learns a new style by fine-tuning very few
trainable parameters (less than 1% of total model parameters) and improving
the quality via iterative training with either human or automated feedback.
Better yet, StyleDrop is able to deliver impressive results even when the user
supplies only a single image that specifies the desired style. An extensive
study shows that, for the task of style tuning text-to-image models, StyleDrop
implemented on Muse convincingly outperforms other methods, including
DreamBooth and textual inversion on Imagen or Stable Diffusion. More results
are available at our project website: https://styledrop.github.io