FontStudio: Modelo de Difusão Adaptável à Forma para Geração de Efeitos de Fonte Coerentes e Consistentes
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
Autores: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
Resumo
Recentemente, a aplicação de modelos modernos de geração de texto para imagem baseados em difusão para a criação de fontes artísticas, tradicionalmente domínio de designers profissionais, tem despertado um interesse significativo. Diferentemente da maioria dos estudos existentes que se concentram na geração de tipografia artística, nossa pesquisa visa abordar um desafio novo e mais exigente: a geração de efeitos de texto para fontes multilingues. Essa tarefa essencialmente requer a geração de conteúdo visual coerente e consistente dentro dos limites de uma tela em formato de fonte, em oposição a uma tela retangular tradicional. Para enfrentar essa tarefa, introduzimos um novo modelo de difusão adaptável à forma, capaz de interpretar a forma dada e planejar estrategicamente a distribuição de pixels dentro da tela irregular. Para isso, organizamos um conjunto de dados de alta qualidade de imagens-texto adaptáveis à forma e incorporamos a máscara de segmentação como uma condição visual para orientar o processo de geração de imagens dentro da tela irregular. Essa abordagem permite que o modelo de difusão tradicional baseado em tela retangular produza os conceitos desejados de acordo com as formas geométricas fornecidas. Em segundo lugar, para manter a consistência entre várias letras, também apresentamos um método de transferência de efeitos adaptável à forma e sem necessidade de treinamento, para transferir texturas de uma letra de referência gerada para outras. As principais ideias são a construção de um prior de ruído de efeito de fonte e a propagação das informações de efeito de fonte em um espaço latente concatenado. A eficácia do nosso sistema FontStudio é confirmada por estudos de preferência do usuário, que mostram uma preferência marcante (78% de taxas de vitória em estética) pelo nosso sistema, mesmo quando comparado ao mais recente produto comercial incomparável, Adobe Firefly.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.