FontStudio : Modèle de diffusion adaptatif à la forme pour une génération d'effets de police cohérente et uniforme
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
Auteurs: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
Résumé
Récemment, l'application des modèles modernes de génération d'images à partir de texte basés sur la diffusion pour la création de polices artistiques, traditionnellement réservée aux designers professionnels, a suscité un intérêt considérable. Contrairement à la majorité des études existantes qui se concentrent sur la génération de typographies artistiques, notre recherche vise à relever un défi nouveau et plus exigeant : la génération d'effets de texte pour des polices multilingues. Cette tâche nécessite essentiellement de générer un contenu visuel cohérent et consistant dans les limites d'une toile en forme de police, par opposition à une toile rectangulaire traditionnelle. Pour aborder cette tâche, nous introduisons un nouveau modèle de diffusion adaptatif à la forme, capable d'interpréter la forme donnée et de planifier stratégiquement la distribution des pixels dans la toile irrégulière. Pour y parvenir, nous avons constitué un ensemble de données image-texte de haute qualité adaptatif à la forme et intégré le masque de segmentation comme condition visuelle pour guider le processus de génération d'image dans la toile irrégulière. Cette approche permet au modèle de diffusion traditionnellement basé sur une toile rectangulaire de produire les concepts souhaités en fonction des formes géométriques fournies. Deuxièmement, pour maintenir la cohérence entre plusieurs lettres, nous présentons également une méthode de transfert d'effets adaptative à la forme et sans entraînement, permettant de transférer les textures d'une lettre de référence générée à d'autres. Les idées clés consistent à construire un a priori de bruit d'effet de police et à propager l'information sur l'effet de police dans un espace latent concaténé. L'efficacité de notre système FontStudio est confirmée par des études de préférence utilisateur, qui montrent une préférence marquée (78 % de taux de victoire sur l'esthétique) pour notre système, même comparé au dernier produit commercial inégalé, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.Summary
AI-Generated Summary