FontStudio: Modello di Diffusione Adattivo alla Forma per la Generazione Coerente e Consistente di Effetti di Carattere
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
Autori: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
Abstract
Recentemente, l'applicazione di moderni modelli di generazione di immagini da testo basati su diffusione per la creazione di caratteri artistici, tradizionalmente dominio di designer professionisti, ha suscitato un notevole interesse. Diversamente dalla maggior parte degli studi esistenti che si concentrano sulla generazione di tipografia artistica, la nostra ricerca mira ad affrontare una sfida nuova e più impegnativa: la generazione di effetti di testo per caratteri multilingue. Questo compito richiede essenzialmente la generazione di contenuti visivi coerenti e consistenti all'interno dei confini di una tela a forma di carattere, anziché di una tradizionale tela rettangolare. Per affrontare questo compito, introduciamo un nuovo modello di diffusione adattivo alla forma, in grado di interpretare la forma data e pianificare strategicamente la distribuzione dei pixel all'interno della tela irregolare. Per raggiungere questo obiettivo, curiamo un dataset di alta qualità di immagini e testo adattivo alla forma e incorporiamo la maschera di segmentazione come condizione visiva per guidare il processo di generazione dell'immagine all'interno della tela irregolare. Questo approccio consente al tradizionale modello di diffusione basato su tela rettangolare di produrre i concetti desiderati in conformità con le forme geometriche fornite. In secondo luogo, per mantenere la coerenza tra più lettere, presentiamo anche un metodo di trasferimento di effetti adattivo alla forma, privo di addestramento, per trasferire le texture da una lettera di riferimento generata ad altre. Le intuizioni chiave sono la costruzione di un prior di rumore per l'effetto del carattere e la propagazione delle informazioni sull'effetto del carattere in uno spazio latente concatenato. L'efficacia del nostro sistema FontStudio è confermata da studi di preferenza degli utenti, che mostrano una marcata preferenza (78% di tassi di vittoria sull'estetica) per il nostro sistema anche rispetto all'ultimo prodotto commerciale imbattuto, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.