FontStudio: Form-adaptives Diffusionsmodell für kohärente und konsistente Schrifteffekterzeugung
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
Autoren: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
Zusammenfassung
In letzter Zeit hat die Anwendung moderner auf Diffusion basierender Text-zu-Bild-Generierungsmodelle zur Erstellung künstlerischer Schriftarten, die traditionell das Fachgebiet professioneller Designer sind, erhebliches Interesse geweckt. Abweichend von der Mehrheit der bestehenden Studien, die sich auf die Generierung künstlerischer Typografie konzentrieren, zielt unsere Forschung darauf ab, eine neuartige und anspruchsvollere Herausforderung anzugehen: die Generierung von Texteffekten für mehrsprachige Schriftarten. Diese Aufgabe erfordert im Wesentlichen die Erzeugung kohärenter und konsistenter visueller Inhalte innerhalb der Grenzen einer schriftförmigen Leinwand, im Gegensatz zu einer traditionellen rechteckigen Leinwand. Um diese Aufgabe anzugehen, stellen wir ein neuartiges formadaptives Diffusionsmodell vor, das in der Lage ist, die gegebene Form zu interpretieren und strategisch Pixelverteilungen innerhalb der unregelmäßigen Leinwand zu planen. Um dies zu erreichen, kuratieren wir einen hochwertigen formadaptiven Bild-Text-Datensatz und integrieren die Segmentierungsmaske als visuelle Bedingung, um den Bildgenerierungsprozess innerhalb der unregelmäßigen Leinwand zu lenken. Dieser Ansatz ermöglicht es dem traditionell auf rechteckiger Leinwand basierenden Diffusionsmodell, die gewünschten Konzepte entsprechend den bereitgestellten geometrischen Formen zu erzeugen. Zweitens präsentieren wir auch eine trainingsfreie, formadaptive Effektübertragungsmethode, um die Konsistenz über mehrere Buchstaben hinweg aufrechtzuerhalten, indem Texturen von einem generierten Referenzbuchstaben auf andere übertragen werden. Die Schlüsselerkenntnisse bestehen darin, ein Schriftart-Effekt-Rauschen vorab zu erstellen und die Schriftart-Effektinformationen in einem konkatenierten latenten Raum zu propagieren. Die Wirksamkeit unseres FontStudio-Systems wird durch Benutzerpräferenzstudien bestätigt, die eine deutliche Präferenz (78% Gewinnrate in Ästhetik) für unser System zeigen, selbst im Vergleich zum neuesten unübertroffenen kommerziellen Produkt, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.Summary
AI-Generated Summary