StyleStudio: Текстовая передача стиля с выборочным контролем элементов стиля
StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
December 11, 2024
Авторы: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang
cs.AI
Аннотация
Перенос стиля на основе текста направлен на объединение стиля референтного изображения с содержанием, описанным в текстовой подсказке. Недавние достижения в моделях текст-изображение улучшили тонкость трансформаций стиля, однако остаются значительные проблемы, особенно с переобучением на стили референсов, ограничивая стилистический контроль и расхождение с текстовым содержанием. В данной статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы представляем механизм кросс-модальной нормализации экземпляра с адаптивным инстансным (AdaIN) для лучшей интеграции стилевых и текстовых особенностей, улучшая их выравнивание. Во-вторых, мы разрабатываем подход Стилевое руководство без классификатора (SCFG), который позволяет селективный контроль над стилевыми элементами, уменьшая нерелевантные влияния. Наконец, мы включаем модель учителя на ранних этапах генерации для стабилизации пространственных макетов и смягчения артефактов. Наши обширные оценки демонстрируют значительные улучшения качества переноса стиля и выравнивание с текстовыми подсказками. Более того, наш подход может быть интегрирован в существующие рамки переноса стиля без донастройки.
English
Text-driven style transfer aims to merge the style of a reference image with
content described by a text prompt. Recent advancements in text-to-image models
have improved the nuance of style transformations, yet significant challenges
remain, particularly with overfitting to reference styles, limiting stylistic
control, and misaligning with textual content. In this paper, we propose three
complementary strategies to address these issues. First, we introduce a
cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better
integration of style and text features, enhancing alignment. Second, we develop
a Style-based Classifier-Free Guidance (SCFG) approach that enables selective
control over stylistic elements, reducing irrelevant influences. Finally, we
incorporate a teacher model during early generation stages to stabilize spatial
layouts and mitigate artifacts. Our extensive evaluations demonstrate
significant improvements in style transfer quality and alignment with textual
prompts. Furthermore, our approach can be integrated into existing style
transfer frameworks without fine-tuning.Summary
AI-Generated Summary