ChatPaper.aiChatPaper

StyleStudio: Tekstgestuurde Stijloverdracht met Selectieve Controle van Stijlelementen

StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

December 11, 2024
Auteurs: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang
cs.AI

Samenvatting

Tekstgestuurde stijloverdracht heeft als doel de stijl van een referentieafbeelding te combineren met de inhoud die wordt beschreven door een tekstprompt. Recente ontwikkelingen in tekst-naar-afbeelding modellen hebben de nuance van stijltransformaties verbeterd, maar er blijven aanzienlijke uitdagingen bestaan, met name met betrekking tot overfitting aan referentiestijlen, beperkingen in stilistische controle en het niet goed afstemmen op tekstuele inhoud. In dit artikel stellen we drie aanvullende strategieën voor om deze problemen aan te pakken. Ten eerste introduceren we een cross-modale Adaptive Instance Normalization (AdaIN) mechanisme voor een betere integratie van stijl- en tekstkenmerken, wat de afstemming verbetert. Ten tweede ontwikkelen we een Stijlgebaseerde Classifier-Vrije Begeleiding (SCFG) benadering die selectieve controle over stilistische elementen mogelijk maakt, waardoor irrelevante invloeden worden verminderd. Tot slot nemen we een teacher model op tijdens de vroege generatiestadia om ruimtelijke lay-outs te stabiliseren en artefacten te verminderen. Onze uitgebreide evaluaties tonen significante verbeteringen in de kwaliteit van stijloverdracht en afstemming op tekstuele prompts. Bovendien kan onze benadering worden geïntegreerd in bestaande stijloverdrachtskaders zonder fijnafstemming.
English
Text-driven style transfer aims to merge the style of a reference image with content described by a text prompt. Recent advancements in text-to-image models have improved the nuance of style transformations, yet significant challenges remain, particularly with overfitting to reference styles, limiting stylistic control, and misaligning with textual content. In this paper, we propose three complementary strategies to address these issues. First, we introduce a cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better integration of style and text features, enhancing alignment. Second, we develop a Style-based Classifier-Free Guidance (SCFG) approach that enables selective control over stylistic elements, reducing irrelevant influences. Finally, we incorporate a teacher model during early generation stages to stabilize spatial layouts and mitigate artifacts. Our extensive evaluations demonstrate significant improvements in style transfer quality and alignment with textual prompts. Furthermore, our approach can be integrated into existing style transfer frameworks without fine-tuning.
PDF82December 12, 2024