StyleStudio : Transfert de style basé sur le texte avec contrôle sélectif des éléments de style
StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
December 11, 2024
Auteurs: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang
cs.AI
Résumé
La transfert de style basé sur le texte vise à fusionner le style d'une image de référence avec le contenu décrit par une instruction textuelle. Les récents progrès dans les modèles texte-vers-image ont amélioré la subtilité des transformations de style, mais d'importants défis persistent, notamment en termes de surajustement aux styles de référence, de contrôle limité du style et de désalignement avec le contenu textuel. Dans cet article, nous proposons trois stratégies complémentaires pour aborder ces problèmes. Tout d'abord, nous introduisons un mécanisme de Normalisation d'Instance Adaptative (AdaIN) croisé-modal pour une meilleure intégration des caractéristiques de style et de texte, améliorant l'alignement. Ensuite, nous développons une approche de Guidage sans Classificateur basé sur le Style (SCFG) qui permet un contrôle sélectif sur les éléments stylistiques, réduisant les influences non pertinentes. Enfin, nous incorporons un modèle enseignant lors des premières étapes de génération pour stabiliser les agencements spatiaux et atténuer les artefacts. Nos évaluations approfondies démontrent des améliorations significatives en termes de qualité de transfert de style et d'alignement avec les instructions textuelles. De plus, notre approche peut être intégrée dans les cadres de transfert de style existants sans fine-tuning.
English
Text-driven style transfer aims to merge the style of a reference image with
content described by a text prompt. Recent advancements in text-to-image models
have improved the nuance of style transformations, yet significant challenges
remain, particularly with overfitting to reference styles, limiting stylistic
control, and misaligning with textual content. In this paper, we propose three
complementary strategies to address these issues. First, we introduce a
cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better
integration of style and text features, enhancing alignment. Second, we develop
a Style-based Classifier-Free Guidance (SCFG) approach that enables selective
control over stylistic elements, reducing irrelevant influences. Finally, we
incorporate a teacher model during early generation stages to stabilize spatial
layouts and mitigate artifacts. Our extensive evaluations demonstrate
significant improvements in style transfer quality and alignment with textual
prompts. Furthermore, our approach can be integrated into existing style
transfer frameworks without fine-tuning.Summary
AI-Generated Summary