Calligrapher: Freestyle Anpassung von Textbildern
Calligrapher: Freestyle Text Image Customization
June 30, 2025
Autoren: Yue Ma, Qingyan Bai, Hao Ouyang, Ka Leong Cheng, Qiuyu Wang, Hongyu Liu, Zichen Liu, Haofan Wang, Jingye Chen, Yujun Shen, Qifeng Chen
cs.AI
Zusammenfassung
Wir stellen Calligrapher vor, ein neuartiges, diffusionsbasiertes Framework, das fortschrittliche Textanpassung innovativ mit künstlerischer Typografie für digitale Kalligrafie und Designanwendungen verbindet. Um die Herausforderungen der präzisen Stilkontrolle und Datenabhängigkeit bei der typografischen Anpassung zu bewältigen, integriert unser Framework drei wesentliche technische Beiträge. Erstens entwickeln wir einen Selbst-Distillationsmechanismus, der das vortrainierte Text-zu-Bild-Generierungsmodell selbst zusammen mit dem großen Sprachmodell nutzt, um automatisch einen stilzentrierten Typografie-Benchmark zu erstellen. Zweitens führen wir ein lokalisiertes Stil-Injektionsframework über einen trainierbaren Stil-Encoder ein, der sowohl Qformer als auch lineare Schichten umfasst, um robuste Stilmerkmale aus Referenzbildern zu extrahieren. Ein In-Context-Generierungsmechanismus wird ebenfalls eingesetzt, um Referenzbilder direkt in den Denoising-Prozess einzubetten und so die präzise Ausrichtung der Zielstile weiter zu verbessern. Umfangreiche quantitative und qualitative Bewertungen über verschiedene Schriftarten und Designkontexte hinweg bestätigen die genaue Reproduktion komplexer stilistischer Details und die präzise Glyphenpositionierung durch Calligrapher. Durch die Automatisierung hochwertiger, visuell konsistenter Typografie übertrifft Calligrapher traditionelle Modelle und befähigt kreative Praktiker in den Bereichen digitale Kunst, Branding und kontextbezogenes typografisches Design.
English
We introduce Calligrapher, a novel diffusion-based framework that
innovatively integrates advanced text customization with artistic typography
for digital calligraphy and design applications. Addressing the challenges of
precise style control and data dependency in typographic customization, our
framework incorporates three key technical contributions. First, we develop a
self-distillation mechanism that leverages the pre-trained text-to-image
generative model itself alongside the large language model to automatically
construct a style-centric typography benchmark. Second, we introduce a
localized style injection framework via a trainable style encoder, which
comprises both Qformer and linear layers, to extract robust style features from
reference images. An in-context generation mechanism is also employed to
directly embed reference images into the denoising process, further enhancing
the refined alignment of target styles. Extensive quantitative and qualitative
evaluations across diverse fonts and design contexts confirm Calligrapher's
accurate reproduction of intricate stylistic details and precise glyph
positioning. By automating high-quality, visually consistent typography,
Calligrapher surpasses traditional models, empowering creative practitioners in
digital art, branding, and contextual typographic design.