FontStudio: 形状適応型拡散モデルによる一貫性のあるフォント効果生成
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
著者: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
要旨
近年、現代的な拡散モデルに基づくテキストから画像への生成モデルを、従来は専門デザイナーの領域であった芸術的なフォントの作成に応用することが注目を集めています。既存の研究の多くが芸術的なタイポグラフィの生成に焦点を当てているのに対し、本研究は新たでより困難な課題、すなわち多言語フォントのテキストエフェクト生成に取り組むことを目指しています。このタスクは、従来の長方形キャンバスではなく、フォント形状のキャンバス内で一貫性のある視覚的コンテンツを生成することを本質的に要求します。この課題に対処するため、我々は与えられた形状を解釈し、不規則なキャンバス内でのピクセル分布を戦略的に計画できる新しい形状適応型拡散モデルを提案します。これを実現するために、高品質な形状適応型画像-テキストデータセットをキュレーションし、セグメンテーションマスクを視覚的条件として組み込むことで、不規則なキャンバス内での画像生成プロセスを誘導します。このアプローチにより、従来の長方形キャンバスベースの拡散モデルが、提供された幾何学的形状に従って所望の概念を生成することが可能になります。第二に、複数の文字間で一貫性を維持するため、生成された参照文字から他の文字へテクスチャを転送するためのトレーニング不要の形状適応型エフェクト転送手法も提示します。その鍵となる洞察は、フォントエフェクトノイズの事前分布を構築し、連結された潜在空間でフォントエフェクト情報を伝播することです。我々のFontStudioシステムの有効性は、ユーザー選好調査を通じて確認され、最新の無類の商業製品であるAdobe Fireflyと比較しても、我々のシステムが美的観点で78%の勝率を示すことが明らかになりました。
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.Summary
AI-Generated Summary