Calígrafo: Personalización de Imágenes de Texto en Estilo Libre
Calligrapher: Freestyle Text Image Customization
June 30, 2025
Autores: Yue Ma, Qingyan Bai, Hao Ouyang, Ka Leong Cheng, Qiuyu Wang, Hongyu Liu, Zichen Liu, Haofan Wang, Jingye Chen, Yujun Shen, Qifeng Chen
cs.AI
Resumen
Presentamos Calligrapher, un novedoso marco basado en difusión que integra de manera innovadora la personalización avanzada de texto con tipografía artística para aplicaciones de caligrafía digital y diseño. Al abordar los desafíos del control preciso de estilos y la dependencia de datos en la personalización tipográfica, nuestro marco incorpora tres contribuciones técnicas clave. Primero, desarrollamos un mecanismo de auto-distilación que aprovecha el modelo generativo de texto a imagen preentrenado junto con el modelo de lenguaje grande para construir automáticamente un benchmark de tipografía centrado en estilos. Segundo, introducimos un marco de inyección de estilos localizada mediante un codificador de estilos entrenable, que comprende tanto Qformer como capas lineales, para extraer características robustas de estilo a partir de imágenes de referencia. También se emplea un mecanismo de generación en contexto para incrustar directamente las imágenes de referencia en el proceso de eliminación de ruido, mejorando aún más la alineación refinada de los estilos objetivo. Evaluaciones cuantitativas y cualitativas exhaustivas en diversos tipos de letra y contextos de diseño confirman la reproducción precisa de detalles estilísticos intrincados y el posicionamiento exacto de glifos por parte de Calligrapher. Al automatizar la tipografía de alta calidad y visualmente consistente, Calligrapher supera a los modelos tradicionales, empoderando a los profesionales creativos en el arte digital, branding y diseño tipográfico contextual.
English
We introduce Calligrapher, a novel diffusion-based framework that
innovatively integrates advanced text customization with artistic typography
for digital calligraphy and design applications. Addressing the challenges of
precise style control and data dependency in typographic customization, our
framework incorporates three key technical contributions. First, we develop a
self-distillation mechanism that leverages the pre-trained text-to-image
generative model itself alongside the large language model to automatically
construct a style-centric typography benchmark. Second, we introduce a
localized style injection framework via a trainable style encoder, which
comprises both Qformer and linear layers, to extract robust style features from
reference images. An in-context generation mechanism is also employed to
directly embed reference images into the denoising process, further enhancing
the refined alignment of target styles. Extensive quantitative and qualitative
evaluations across diverse fonts and design contexts confirm Calligrapher's
accurate reproduction of intricate stylistic details and precise glyph
positioning. By automating high-quality, visually consistent typography,
Calligrapher surpasses traditional models, empowering creative practitioners in
digital art, branding, and contextual typographic design.