InstantStyle-Plus: Transferência de Estilo com Preservação de Conteúdo na Geração de Texto para Imagem
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation
June 30, 2024
Autores: Haofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai
cs.AI
Resumo
A transferência de estilo é um processo inventivo projetado para criar uma imagem que mantém a essência do original ao abraçar o estilo visual de outro. Embora os modelos de difusão tenham demonstrado um impressionante poder generativo em aplicações personalizadas orientadas por assunto ou estilo, os métodos de ponta existentes ainda enfrentam dificuldades em alcançar um equilíbrio perfeito entre a preservação de conteúdo e o aprimoramento de estilo. Por exemplo, amplificar a influência do estilo frequentemente pode comprometer a integridade estrutural do conteúdo. Para enfrentar esses desafios, decompomos a tarefa de transferência de estilo em três elementos principais: 1) Estilo, focando nas características estéticas da imagem; 2) Estrutura Espacial, referente ao arranjo geométrico e composição dos elementos visuais; e 3) Conteúdo Semântico, que captura o significado conceitual da imagem. Guiados por esses princípios, apresentamos o InstantStyle-Plus, uma abordagem que prioriza a integridade do conteúdo original ao integrar de forma contínua o estilo alvo. Especificamente, nosso método realiza a injeção de estilo por meio de um processo eficiente e leve, utilizando o avançado framework InstantStyle. Para reforçar a preservação de conteúdo, iniciamos o processo com um ruído latente de conteúdo invertido e uma ControlNet de mosaico plug-and-play versátil para preservar o layout intrínseco da imagem original. Também incorporamos um adaptador semântico global para aprimorar a fidelidade do conteúdo semântico. Para proteger contra a diluição das informações de estilo, um extrator de estilo é empregado como discriminador para fornecer orientação de estilo complementar. Os códigos estarão disponíveis em https://github.com/instantX-research/InstantStyle-Plus.
English
Style transfer is an inventive process designed to create an image that
maintains the essence of the original while embracing the visual style of
another. Although diffusion models have demonstrated impressive generative
power in personalized subject-driven or style-driven applications, existing
state-of-the-art methods still encounter difficulties in achieving a seamless
balance between content preservation and style enhancement. For example,
amplifying the style's influence can often undermine the structural integrity
of the content. To address these challenges, we deconstruct the style transfer
task into three core elements: 1) Style, focusing on the image's aesthetic
characteristics; 2) Spatial Structure, concerning the geometric arrangement and
composition of visual elements; and 3) Semantic Content, which captures the
conceptual meaning of the image. Guided by these principles, we introduce
InstantStyle-Plus, an approach that prioritizes the integrity of the original
content while seamlessly integrating the target style. Specifically, our method
accomplishes style injection through an efficient, lightweight process,
utilizing the cutting-edge InstantStyle framework. To reinforce the content
preservation, we initiate the process with an inverted content latent noise and
a versatile plug-and-play tile ControlNet for preserving the original image's
intrinsic layout. We also incorporate a global semantic adapter to enhance the
semantic content's fidelity. To safeguard against the dilution of style
information, a style extractor is employed as discriminator for providing
supplementary style guidance. Codes will be available at
https://github.com/instantX-research/InstantStyle-Plus.