FontStudio: Модель диффузии, адаптивная по форме, для создания согласованных и последовательных эффектов шрифта
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
Авторы: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
Аннотация
В последнее время применение современных моделей генерации изображений из текста на основе диффузии для создания художественных шрифтов, традиционно принадлежащих профессиональным дизайнерам, вызвало значительный интерес. Отличаясь от большинства существующих исследований, сосредотачивающихся на создании художественной типографики, наше исследование нацелено на решение новой и более сложной задачи: генерацию текстовых эффектов для многоязычных шрифтов. Эта задача в основном требует создания последовательного и согласованного визуального контента в рамках формы шрифта, в отличие от традиционного прямоугольного холста. Для решения этой задачи мы представляем новую модель диффузии, способную адаптироваться к форме и стратегически планировать распределение пикселей в нерегулярном холсте. Для этого мы создаем высококачественный набор данных изображений и текста, адаптированный к форме, и включаем маску сегментации в качестве визуального условия для управления процессом генерации изображения в нерегулярном холсте. Этот подход позволяет традиционной модели диффузии на основе прямоугольного холста создавать желаемые концепции в соответствии с предоставленными геометрическими формами. Кроме того, чтобы сохранить согласованность между несколькими буквами, мы также представляем метод передачи эффекта, адаптированный к форме и не требующий обучения, для передачи текстур из сгенерированной опорной буквы другим. Ключевые идеи заключаются в создании шумового приора эффекта шрифта и распространении информации об эффекте шрифта в конкатенированном латентном пространстве. Эффективность нашей системы FontStudio подтверждается исследованиями пользовательских предпочтений, которые показывают явное предпочтение (78% побед в эстетике) нашей системе даже по сравнению с последним непревзойденным коммерческим продуктом, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.Summary
AI-Generated Summary