StyleDrop: Geração de Imagens a partir de Texto em Qualquer Estilo

Resumo

Modelos pré-treinados de grande escala para síntese de texto em imagem geram imagens impressionantes com o uso adequado de prompts de texto. No entanto, as ambiguidades inerentes à linguagem natural e os efeitos de distribuição fora do domínio tornam difícil sintetizar estilos de imagem que aproveitem um padrão de design, textura ou material específico. Neste artigo, apresentamos o StyleDrop, um método que possibilita a síntese de imagens que seguem fielmente um estilo específico utilizando um modelo de texto em imagem. O método proposto é extremamente versátil e captura nuances e detalhes de um estilo fornecido pelo usuário, como esquemas de cores, sombreamento, padrões de design e efeitos locais e globais. Ele aprende eficientemente um novo estilo ao ajustar poucos parâmetros treináveis (menos de 1% do total de parâmetros do modelo) e melhora a qualidade por meio de treinamento iterativo com feedback humano ou automatizado. Melhor ainda, o StyleDrop é capaz de entregar resultados impressionantes mesmo quando o usuário fornece apenas uma única imagem que especifica o estilo desejado. Um estudo extensivo mostra que, para a tarefa de ajuste de estilo em modelos de texto em imagem, o StyleDrop implementado no Muse supera convincentemente outros métodos, incluindo DreamBooth e inversão textual no Imagen ou Stable Diffusion. Mais resultados estão disponíveis em nosso site do projeto: https://styledrop.github.io.

English

Pre-trained large text-to-image models synthesize impressive images with an appropriate use of text prompts. However, ambiguities inherent in natural language and out-of-distribution effects make it hard to synthesize image styles, that leverage a specific design pattern, texture or material. In this paper, we introduce StyleDrop, a method that enables the synthesis of images that faithfully follow a specific style using a text-to-image model. The proposed method is extremely versatile and captures nuances and details of a user-provided style, such as color schemes, shading, design patterns, and local and global effects. It efficiently learns a new style by fine-tuning very few trainable parameters (less than 1% of total model parameters) and improving the quality via iterative training with either human or automated feedback. Better yet, StyleDrop is able to deliver impressive results even when the user supplies only a single image that specifies the desired style. An extensive study shows that, for the task of style tuning text-to-image models, StyleDrop implemented on Muse convincingly outperforms other methods, including DreamBooth and textual inversion on Imagen or Stable Diffusion. More results are available at our project website: https://styledrop.github.io

StyleDrop: Geração de Imagens a partir de Texto em Qualquer Estilo

StyleDrop: Text-to-Image Generation in Any Style

Resumo

Support