Artista: Estilização de Texto Controlável Esteticamente sem Treinamento
Artist: Aesthetically Controllable Text-Driven Stylization without Training
July 22, 2024
Autores: Ruixiang Jiang, Changwen Chen
cs.AI
Resumo
Os modelos de difusão entrelaçam a geração de conteúdo e estilo durante o processo de remoção de ruído, o que pode resultar em modificações indesejadas no conteúdo quando aplicados diretamente a tarefas de estilização. Métodos existentes têm dificuldade em controlar efetivamente o modelo de difusão para atender aos requisitos estéticos de estilização. Neste artigo, apresentamos o Artist, uma abordagem sem treinamento que controla esteticamente a geração de conteúdo e estilo de um modelo de difusão pré-treinado para estilização orientada por texto. Nosso insight chave é desvincular a remoção de ruído de conteúdo e estilo em processos de difusão separados, compartilhando informações entre eles. Propomos métodos simples, porém eficazes, de controle de conteúdo e estilo que suprimem a geração de conteúdo irrelevante para o estilo, resultando em resultados de estilização harmoniosos. Experimentos extensivos demonstram que nosso método se destaca ao atender aos requisitos estéticos de estilização, preservando detalhes intricados na imagem de conteúdo e alinhando-se bem com a sugestão de estilo. Além disso, demonstramos a alta capacidade de controle da intensidade de estilização sob diversas perspectivas. O código será disponibilizado, página inicial do projeto: https://DiffusionArtist.github.io
English
Diffusion models entangle content and style generation during the denoising
process, leading to undesired content modification when directly applied to
stylization tasks. Existing methods struggle to effectively control the
diffusion model to meet the aesthetic-level requirements for stylization. In
this paper, we introduce Artist, a training-free approach that
aesthetically controls the content and style generation of a pretrained
diffusion model for text-driven stylization. Our key insight is to disentangle
the denoising of content and style into separate diffusion processes while
sharing information between them. We propose simple yet effective content and
style control methods that suppress style-irrelevant content generation,
resulting in harmonious stylization results. Extensive experiments demonstrate
that our method excels at achieving aesthetic-level stylization requirements,
preserving intricate details in the content image and aligning well with the
style prompt. Furthermore, we showcase the highly controllability of the
stylization strength from various perspectives. Code will be released, project
home page: https://DiffusionArtist.github.io