StyleStudio: Transferência de Estilo Orientada por Texto com Controle Seletivo dos Elementos de Estilo
StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
December 11, 2024
Autores: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang
cs.AI
Resumo
A transferência de estilo orientada por texto tem como objetivo mesclar o estilo de uma imagem de referência com o conteúdo descrito por uma instrução de texto. Avanços recentes em modelos de texto para imagem têm aprimorado a sutileza das transformações de estilo, no entanto, desafios significativos permanecem, especialmente com o ajuste excessivo aos estilos de referência, limitando o controle estilístico e desalinhando-se com o conteúdo textual. Neste artigo, propomos três estratégias complementares para lidar com essas questões. Primeiramente, introduzimos um mecanismo de Normalização de Instância Adaptativa (AdaIN) cruzada-modal para uma melhor integração de características de estilo e texto, aprimorando o alinhamento. Em segundo lugar, desenvolvemos uma abordagem de Orientação Livre de Classificador Baseado em Estilo (SCFG) que permite controle seletivo sobre elementos estilísticos, reduzindo influências irrelevantes. Por fim, incorporamos um modelo professor durante as fases iniciais de geração para estabilizar layouts espaciais e mitigar artefatos. Nossas extensas avaliações demonstram melhorias significativas na qualidade da transferência de estilo e alinhamento com instruções textuais. Além disso, nossa abordagem pode ser integrada em estruturas de transferência de estilo existentes sem ajustes finos.
English
Text-driven style transfer aims to merge the style of a reference image with
content described by a text prompt. Recent advancements in text-to-image models
have improved the nuance of style transformations, yet significant challenges
remain, particularly with overfitting to reference styles, limiting stylistic
control, and misaligning with textual content. In this paper, we propose three
complementary strategies to address these issues. First, we introduce a
cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better
integration of style and text features, enhancing alignment. Second, we develop
a Style-based Classifier-Free Guidance (SCFG) approach that enables selective
control over stylistic elements, reducing irrelevant influences. Finally, we
incorporate a teacher model during early generation stages to stabilize spatial
layouts and mitigate artifacts. Our extensive evaluations demonstrate
significant improvements in style transfer quality and alignment with textual
prompts. Furthermore, our approach can be integrated into existing style
transfer frameworks without fine-tuning.Summary
AI-Generated Summary