ChatPaper.aiChatPaper

FontStudio : Modèle de diffusion adaptatif à la forme pour une génération d'effets de police cohérente et uniforme

FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

June 12, 2024
Auteurs: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI

Résumé

Récemment, l'application des modèles modernes de génération d'images à partir de texte basés sur la diffusion pour la création de polices artistiques, traditionnellement réservée aux designers professionnels, a suscité un intérêt considérable. Contrairement à la majorité des études existantes qui se concentrent sur la génération de typographies artistiques, notre recherche vise à relever un défi nouveau et plus exigeant : la génération d'effets de texte pour des polices multilingues. Cette tâche nécessite essentiellement de générer un contenu visuel cohérent et consistant dans les limites d'une toile en forme de police, par opposition à une toile rectangulaire traditionnelle. Pour aborder cette tâche, nous introduisons un nouveau modèle de diffusion adaptatif à la forme, capable d'interpréter la forme donnée et de planifier stratégiquement la distribution des pixels dans la toile irrégulière. Pour y parvenir, nous avons constitué un ensemble de données image-texte de haute qualité adaptatif à la forme et intégré le masque de segmentation comme condition visuelle pour guider le processus de génération d'image dans la toile irrégulière. Cette approche permet au modèle de diffusion traditionnellement basé sur une toile rectangulaire de produire les concepts souhaités en fonction des formes géométriques fournies. Deuxièmement, pour maintenir la cohérence entre plusieurs lettres, nous présentons également une méthode de transfert d'effets adaptative à la forme et sans entraînement, permettant de transférer les textures d'une lettre de référence générée à d'autres. Les idées clés consistent à construire un a priori de bruit d'effet de police et à propager l'information sur l'effet de police dans un espace latent concaténé. L'efficacité de notre système FontStudio est confirmée par des études de préférence utilisateur, qui montrent une préférence marquée (78 % de taux de victoire sur l'esthétique) pour notre système, même comparé au dernier produit commercial inégalé, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation models for creating artistic fonts, traditionally the domain of professional designers, has garnered significant interest. Diverging from the majority of existing studies that concentrate on generating artistic typography, our research aims to tackle a novel and more demanding challenge: the generation of text effects for multilingual fonts. This task essentially requires generating coherent and consistent visual content within the confines of a font-shaped canvas, as opposed to a traditional rectangular canvas. To address this task, we introduce a novel shape-adaptive diffusion model capable of interpreting the given shape and strategically planning pixel distributions within the irregular canvas. To achieve this, we curate a high-quality shape-adaptive image-text dataset and incorporate the segmentation mask as a visual condition to steer the image generation process within the irregular-canvas. This approach enables the traditionally rectangle canvas-based diffusion model to produce the desired concepts in accordance with the provided geometric shapes. Second, to maintain consistency across multiple letters, we also present a training-free, shape-adaptive effect transfer method for transferring textures from a generated reference letter to others. The key insights are building a font effect noise prior and propagating the font effect information in a concatenated latent space. The efficacy of our FontStudio system is confirmed through user preference studies, which show a marked preference (78% win-rates on aesthetics) for our system even when compared to the latest unrivaled commercial product, Adobe Firefly.

Summary

AI-Generated Summary

PDF210December 8, 2024