ChatPaper.aiChatPaper

StyleStudio: Textbasierte Stilübertragung mit selektiver Steuerung von Stilelementen

StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

December 11, 2024
Autoren: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang
cs.AI

Zusammenfassung

Die textgesteuerte Stilübertragung zielt darauf ab, den Stil eines Referenzbildes mit dem Inhalt zu verschmelzen, der durch eine Textvorgabe beschrieben wird. Die jüngsten Fortschritte bei Text-zu-Bild-Modellen haben die Feinheiten von Stiltransformationen verbessert, dennoch bestehen weiterhin bedeutende Herausforderungen, insbesondere hinsichtlich des Überanpassens an Referenzstile, der Begrenzung der stilistischen Kontrolle und der Missabstimmung mit dem Textinhalt. In diesem Artikel schlagen wir drei ergänzende Strategien vor, um diese Probleme anzugehen. Erstens führen wir einen cross-modalen Mechanismus für Adaptive Instanznormalisierung (AdaIN) ein, um eine bessere Integration von Stil- und Textmerkmalen zu ermöglichen und die Ausrichtung zu verbessern. Zweitens entwickeln wir einen Style-basierten klassifikatorfreien Leitfaden (SCFG)-Ansatz, der eine selektive Steuerung über stilistische Elemente ermöglicht und irrelevante Einflüsse reduziert. Schließlich integrieren wir ein Lehrermodell während der frühen Generierungsphasen, um räumliche Layouts zu stabilisieren und Artefakte zu mindern. Unsere umfangreichen Evaluierungen zeigen signifikante Verbesserungen in der Qualität der Stilübertragung und der Ausrichtung auf textuelle Vorgaben. Darüber hinaus kann unser Ansatz in bestehende Stilübertragungs-Frameworks integriert werden, ohne Feinabstimmung.
English
Text-driven style transfer aims to merge the style of a reference image with content described by a text prompt. Recent advancements in text-to-image models have improved the nuance of style transformations, yet significant challenges remain, particularly with overfitting to reference styles, limiting stylistic control, and misaligning with textual content. In this paper, we propose three complementary strategies to address these issues. First, we introduce a cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better integration of style and text features, enhancing alignment. Second, we develop a Style-based Classifier-Free Guidance (SCFG) approach that enables selective control over stylistic elements, reducing irrelevant influences. Finally, we incorporate a teacher model during early generation stages to stabilize spatial layouts and mitigate artifacts. Our extensive evaluations demonstrate significant improvements in style transfer quality and alignment with textual prompts. Furthermore, our approach can be integrated into existing style transfer frameworks without fine-tuning.

Summary

AI-Generated Summary

PDF82December 12, 2024