FontStudio: Vormadaptief diffusiemodel voor coherente en consistente generatie van lettertype-effecten
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
Auteurs: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
Samenvatting
Onlangs heeft de toepassing van moderne diffusiegebaseerde tekst-naar-beeldgeneratiemodellen voor het creëren van artistieke lettertypen, traditioneel het domein van professionele ontwerpers, aanzienlijke belangstelling gewekt. In tegenstelling tot de meerderheid van bestaande studies die zich richten op het genereren van artistieke typografie, streeft ons onderzoek naar het aanpakken van een nieuwe en uitdagender taak: het genereren van teksteffecten voor meertalige lettertypen. Deze taak vereist in essentie het genereren van samenhangende en consistente visuele inhoud binnen de grenzen van een canvas in de vorm van een lettertype, in plaats van een traditioneel rechthoekig canvas. Om deze taak aan te pakken, introduceren we een nieuw vormadaptief diffusiemodel dat in staat is om de gegeven vorm te interpreteren en strategisch pixelverdelingen binnen het onregelmatige canvas te plannen. Om dit te bereiken, stellen we een hoogwaardige vormadaptieve beeld-tekstdataset samen en integreren we het segmentatiemasker als visuele voorwaarde om het beeldgeneratieproces binnen het onregelmatige canvas te sturen. Deze aanpak stelt het traditionele op rechthoekige canvas gebaseerde diffusiemodel in staat om de gewenste concepten te produceren in overeenstemming met de verstrekte geometrische vormen. Ten tweede, om consistentie over meerdere letters te behouden, presenteren we ook een trainingsvrije, vormadaptieve effectoverdrachtsmethode voor het overbrengen van texturen van een gegenereerde referentieletter naar andere. De belangrijkste inzichten zijn het opbouwen van een lettertype-effectruisprior en het verspreiden van de lettertype-effectinformatie in een aaneengeschakelde latente ruimte. De effectiviteit van ons FontStudio-systeem wordt bevestigd door gebruikersvoorkeurstudies, die een duidelijke voorkeur (78% winratio's op esthetiek) voor ons systeem aantonen, zelfs in vergelijking met het nieuwste onovertroffen commerciële product, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.