ChatPaper.aiChatPaper

Kalligraaf: Vrije-stijl Tekstafbeeldingen Aanpassen

Calligrapher: Freestyle Text Image Customization

June 30, 2025
Auteurs: Yue Ma, Qingyan Bai, Hao Ouyang, Ka Leong Cheng, Qiuyu Wang, Hongyu Liu, Zichen Liu, Haofan Wang, Jingye Chen, Yujun Shen, Qifeng Chen
cs.AI

Samenvatting

We introduceren Calligrapher, een innovatief op diffusie gebaseerd raamwerk dat geavanceerde tekstcustomisatie op een vernieuwende manier integreert met artistieke typografie voor digitale kalligrafie en ontwerptoepassingen. Om de uitdagingen van precieze stijlcontrole en data-afhankelijkheid bij typografische customisatie aan te pakken, omvat ons raamwerk drie belangrijke technische bijdragen. Ten eerste ontwikkelen we een zelfdistillatiemechanisme dat gebruikmaakt van het vooraf getrainde tekst-naar-beeld generatieve model zelf, samen met het grote taalmodel, om automatisch een stijlgericht typografiebenchmark te construeren. Ten tweede introduceren we een gelokaliseerd stijlinjectieraamwerk via een trainbare stijlcoderingsmodule, die zowel Qformer- als lineaire lagen omvat, om robuuste stijlkenmerken uit referentiebeelden te extraheren. Een in-context generatiemechanisme wordt ook ingezet om referentiebeelden direct in het denoisingsproces in te bedden, wat de verfijnde afstemming van doelstijlen verder verbetert. Uitgebreide kwantitatieve en kwalitatieve evaluaties over diverse lettertypen en ontwerpcontexten bevestigen dat Calligrapher ingewikkelde stilistische details en precieze glyphpositionering nauwkeurig reproduceert. Door hoogwaardige, visueel consistente typografie te automatiseren, overtreft Calligrapher traditionele modellen en ondersteunt het creatieve professionals in digitale kunst, branding en contextuele typografische ontwerpen.
English
We introduce Calligrapher, a novel diffusion-based framework that innovatively integrates advanced text customization with artistic typography for digital calligraphy and design applications. Addressing the challenges of precise style control and data dependency in typographic customization, our framework incorporates three key technical contributions. First, we develop a self-distillation mechanism that leverages the pre-trained text-to-image generative model itself alongside the large language model to automatically construct a style-centric typography benchmark. Second, we introduce a localized style injection framework via a trainable style encoder, which comprises both Qformer and linear layers, to extract robust style features from reference images. An in-context generation mechanism is also employed to directly embed reference images into the denoising process, further enhancing the refined alignment of target styles. Extensive quantitative and qualitative evaluations across diverse fonts and design contexts confirm Calligrapher's accurate reproduction of intricate stylistic details and precise glyph positioning. By automating high-quality, visually consistent typography, Calligrapher surpasses traditional models, empowering creative practitioners in digital art, branding, and contextual typographic design.
PDF313July 1, 2025