Каллиграф: Свободная настройка текстовых изображений
Calligrapher: Freestyle Text Image Customization
June 30, 2025
Авторы: Yue Ma, Qingyan Bai, Hao Ouyang, Ka Leong Cheng, Qiuyu Wang, Hongyu Liu, Zichen Liu, Haofan Wang, Jingye Chen, Yujun Shen, Qifeng Chen
cs.AI
Аннотация
Мы представляем Calligrapher, новаторскую диффузионную платформу, которая интегрирует передовые методы настройки текста с художественной типографикой для применения в цифровой каллиграфии и дизайне. Решая проблемы точного управления стилем и зависимости от данных в настройке типографики, наша платформа включает три ключевых технических новшества. Во-первых, мы разработали механизм самообучения, который использует предварительно обученную модель генерации изображений из текста вместе с крупной языковой моделью для автоматического создания эталонного набора данных, ориентированного на стили. Во-вторых, мы внедрили локализованную систему внедрения стилей с помощью обучаемого стилевого кодировщика, состоящего из Qformer и линейных слоев, для извлечения устойчивых стилевых признаков из эталонных изображений. Также используется механизм генерации в контексте, который напрямую встраивает эталонные изображения в процесс удаления шума, что дополнительно улучшает точное соответствие целевых стилей. Многочисленные количественные и качественные оценки в различных шрифтах и дизайнерских контекстах подтверждают способность Calligrapher точно воспроизводить сложные стилистические детали и позиционирование глифов. Автоматизируя создание высококачественной и визуально согласованной типографики, Calligrapher превосходит традиционные модели, расширяя возможности творческих специалистов в цифровом искусстве, брендинге и контекстуальном типографическом дизайне.
English
We introduce Calligrapher, a novel diffusion-based framework that
innovatively integrates advanced text customization with artistic typography
for digital calligraphy and design applications. Addressing the challenges of
precise style control and data dependency in typographic customization, our
framework incorporates three key technical contributions. First, we develop a
self-distillation mechanism that leverages the pre-trained text-to-image
generative model itself alongside the large language model to automatically
construct a style-centric typography benchmark. Second, we introduce a
localized style injection framework via a trainable style encoder, which
comprises both Qformer and linear layers, to extract robust style features from
reference images. An in-context generation mechanism is also employed to
directly embed reference images into the denoising process, further enhancing
the refined alignment of target styles. Extensive quantitative and qualitative
evaluations across diverse fonts and design contexts confirm Calligrapher's
accurate reproduction of intricate stylistic details and precise glyph
positioning. By automating high-quality, visually consistent typography,
Calligrapher surpasses traditional models, empowering creative practitioners in
digital art, branding, and contextual typographic design.