FontStudio: 일관적이고 통일된 폰트 효과 생성을 위한 형태 적응형 확산 모델
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
June 12, 2024
저자: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
cs.AI
초록
최근 전문 디자이너들의 전통적인 영역이었던 예술적 폰트 제작에 현대적인 확산 기반(diffusion-based) 텍스트-이미지 생성 모델을 적용하는 사례가 큰 관심을 끌고 있습니다. 기존 대부분의 연구가 예술적 타이포그래피 생성에 집중한 것과 달리, 본 연구는 더 새롭고 까다로운 과제인 다국어 폰트를 위한 텍스트 효과 생성에 주목합니다. 이 작업은 본질적으로 전통적인 직사각형 캔버스가 아닌 폰트 형태의 캔버스 내에서 일관되고 통일된 시각적 콘텐츠를 생성하는 것을 요구합니다. 이를 해결하기 위해, 우리는 주어진 형태를 해석하고 불규칙한 캔버스 내에서 픽셀 분포를 전략적으로 계획할 수 있는 새로운 형태 적응형 확산 모델을 제안합니다. 이를 위해 고품질의 형태 적응형 이미지-텍스트 데이터셋을 구축하고, 불규칙 캔버스 내에서 이미지 생성 과정을 안내하기 위해 시각적 조건으로 세그멘테이션 마스크를 활용합니다. 이 접근법은 전통적인 직사각형 캔버스 기반의 확산 모델이 제공된 기하학적 형태에 따라 원하는 개념을 생성할 수 있도록 합니다. 둘째, 여러 글자 간의 일관성을 유지하기 위해, 생성된 참조 글자의 질감을 다른 글자로 전달하는 학습이 필요 없는 형태 적응형 효과 전달 방법을 제시합니다. 이 방법의 핵심은 폰트 효과 노이즈 사전을 구축하고, 연결된 잠재 공간에서 폰트 효과 정보를 전파하는 것입니다. 우리의 FontStudio 시스템의 효용성은 사용자 선호도 연구를 통해 확인되었으며, 최신의 경쟁사 상용 제품인 Adobe Firefly와 비교했을 때도 미적 측면에서 78%의 승률로 뚜렷한 선호를 보였습니다.
English
Recently, the application of modern diffusion-based text-to-image generation
models for creating artistic fonts, traditionally the domain of professional
designers, has garnered significant interest. Diverging from the majority of
existing studies that concentrate on generating artistic typography, our
research aims to tackle a novel and more demanding challenge: the generation of
text effects for multilingual fonts. This task essentially requires generating
coherent and consistent visual content within the confines of a font-shaped
canvas, as opposed to a traditional rectangular canvas. To address this task,
we introduce a novel shape-adaptive diffusion model capable of interpreting the
given shape and strategically planning pixel distributions within the irregular
canvas. To achieve this, we curate a high-quality shape-adaptive image-text
dataset and incorporate the segmentation mask as a visual condition to steer
the image generation process within the irregular-canvas. This approach enables
the traditionally rectangle canvas-based diffusion model to produce the desired
concepts in accordance with the provided geometric shapes. Second, to maintain
consistency across multiple letters, we also present a training-free,
shape-adaptive effect transfer method for transferring textures from a
generated reference letter to others. The key insights are building a font
effect noise prior and propagating the font effect information in a
concatenated latent space. The efficacy of our FontStudio system is confirmed
through user preference studies, which show a marked preference (78% win-rates
on aesthetics) for our system even when compared to the latest unrivaled
commercial product, Adobe Firefly.Summary
AI-Generated Summary