ChatPaper.aiChatPaper

VecGlypher: Generazione Unificata di Glifi Vettoriali con Modelli Linguistici

VecGlypher: Unified Vector Glyph Generation with Language Models

February 25, 2026
Autori: Xiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han
cs.AI

Abstract

I glifi vettoriali sono le unità atomiche della tipografia digitale, ma la maggior parte delle pipeline basate sull'apprendimento dipendono ancora da fogli di esempio accuratamente curati e da post-elaborazione raster-to-vettoriale, il che limita accessibilità e editabilità. Introduciamo VecGlypher, un singolo modello linguistico multimodale che genera glifi vettoriali ad alta fedeltà direttamente da descrizioni testuali o immagini di esempio. Dato un prompt di stile, immagini di glifi di riferimento opzionali e un carattere target, VecGlypher emette in modo autoregressivo token di tracciati SVG, evitando intermedi raster e producendo in un solo passaggio contorni editabili e continui. Ciò è reso possibile da una ricetta di dati e addestramento consapevole della tipografia: (i) una fase di continuazione su larga scala su 39K font Envato rumorosi per padroneggiare la sintassi SVG e la geometria a lungo orizzonte, seguita da (ii) post-addestramento su 2.5K Google Fonts annotati da esperti con tag descrittivi ed esempi per allineare linguaggio e immagini con la geometria; la pre-elaborazione normalizza i sistemi di coordinate, canonicalizza i tracciati, rimuove i duplicati dalle famiglie e quantizza le coordinate per un decoding stabile di sequenze lunghe. Nella valutazione OOD cross-famiglia, VecGlypher supera sostanzialmente sia LLM generici che baseline specializzati per font vettoriali nella generazione da solo testo, mentre la generazione con riferimento a immagini raggiunge prestazioni allo stato dell'arte, con guadagni marcati rispetto a DeepVecFont-v2 e DualVector. Le ablazioni mostrano che la scala del modello e la ricetta a due stadi sono critiche e che la serializzazione in coordinate assolute produce la geometria migliore. VecGlypher abbassa la barriera per la creazione di font permettendo agli utenti di progettare con parole o esempi, e fornisce una base scalabile per futuri strumenti di design multimodali.
English
Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.
PDF122March 17, 2026