Calligrapher: Personalização de Imagens de Texto em Estilo Livre
Calligrapher: Freestyle Text Image Customization
June 30, 2025
Autores: Yue Ma, Qingyan Bai, Hao Ouyang, Ka Leong Cheng, Qiuyu Wang, Hongyu Liu, Zichen Liu, Haofan Wang, Jingye Chen, Yujun Shen, Qifeng Chen
cs.AI
Resumo
Apresentamos o Calligrapher, uma nova estrutura baseada em difusão que integra de forma inovadora a personalização avançada de texto com tipografia artística para aplicações de caligrafia digital e design. Abordando os desafios de controle preciso de estilo e dependência de dados na personalização tipográfica, nossa estrutura incorpora três contribuições técnicas principais. Primeiro, desenvolvemos um mecanismo de autodistilação que aproveita o próprio modelo generativo de texto para imagem pré-treinado, juntamente com um modelo de linguagem de grande escala, para construir automaticamente um benchmark de tipografia centrado em estilo. Segundo, introduzimos uma estrutura de injeção de estilo localizada por meio de um codificador de estilo treinável, que compreende tanto camadas Qformer quanto lineares, para extrair características robustas de estilo de imagens de referência. Um mecanismo de geração em contexto também é empregado para incorporar diretamente as imagens de referência no processo de redução de ruído, aprimorando ainda mais o alinhamento refinado dos estilos alvo. Avaliações quantitativas e qualitativas extensas em diversas fontes e contextos de design confirmam a reprodução precisa de detalhes estilísticos intrincados e o posicionamento exato de glifos pelo Calligrapher. Ao automatizar a tipografia de alta qualidade e visualmente consistente, o Calligrapher supera os modelos tradicionais, capacitando profissionais criativos em arte digital, branding e design tipográfico contextual.
English
We introduce Calligrapher, a novel diffusion-based framework that
innovatively integrates advanced text customization with artistic typography
for digital calligraphy and design applications. Addressing the challenges of
precise style control and data dependency in typographic customization, our
framework incorporates three key technical contributions. First, we develop a
self-distillation mechanism that leverages the pre-trained text-to-image
generative model itself alongside the large language model to automatically
construct a style-centric typography benchmark. Second, we introduce a
localized style injection framework via a trainable style encoder, which
comprises both Qformer and linear layers, to extract robust style features from
reference images. An in-context generation mechanism is also employed to
directly embed reference images into the denoising process, further enhancing
the refined alignment of target styles. Extensive quantitative and qualitative
evaluations across diverse fonts and design contexts confirm Calligrapher's
accurate reproduction of intricate stylistic details and precise glyph
positioning. By automating high-quality, visually consistent typography,
Calligrapher surpasses traditional models, empowering creative practitioners in
digital art, branding, and contextual typographic design.