FontStudio: Modelo de Difusión Adaptativo a la Forma para la Generación Coherente y Consistente de Efectos Tipográficos
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
Autores: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
Resumen
Recientemente, la aplicación de modelos modernos de generación de imágenes a partir de texto basados en difusión para la creación de fuentes artísticas, tradicionalmente dominio de diseñadores profesionales, ha despertado un interés significativo. A diferencia de la mayoría de los estudios existentes que se centran en la generación de tipografías artísticas, nuestra investigación tiene como objetivo abordar un desafío novedoso y más exigente: la generación de efectos de texto para fuentes multilingües. Esta tarea esencialmente requiere generar contenido visual coherente y consistente dentro de los límites de un lienzo con forma de fuente, en lugar de un lienzo rectangular tradicional. Para abordar esta tarea, presentamos un novedoso modelo de difusión adaptable a formas capaz de interpretar la forma dada y planificar estratégicamente la distribución de píxeles dentro del lienzo irregular. Para lograrlo, hemos creado un conjunto de datos de imágenes-texto de alta calidad adaptable a formas e incorporamos la máscara de segmentación como una condición visual para guiar el proceso de generación de imágenes dentro del lienzo irregular. Este enfoque permite que el modelo de difusión tradicional basado en lienzos rectangulares produzca los conceptos deseados de acuerdo con las formas geométricas proporcionadas. En segundo lugar, para mantener la coherencia entre múltiples letras, también presentamos un método de transferencia de efectos adaptable a formas sin necesidad de entrenamiento, que transfiere texturas desde una letra de referencia generada a otras. Las ideas clave son construir un previo de ruido de efectos de fuente y propagar la información de efectos de fuente en un espacio latente concatenado. La eficacia de nuestro sistema FontStudio se confirma mediante estudios de preferencia de usuarios, que muestran una marcada preferencia (78% de tasas de victoria en estética) por nuestro sistema, incluso en comparación con el último producto comercial incomparable, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.Summary
AI-Generated Summary