VecGlypher: Generazione Unificata di Glifi Vettoriali con Modelli Linguistici

Abstract

I glifi vettoriali sono le unità atomiche della tipografia digitale, ma la maggior parte delle pipeline basate sull'apprendimento dipendono ancora da fogli di esempio accuratamente curati e da post-elaborazione raster-to-vettoriale, il che limita accessibilità e editabilità. Introduciamo VecGlypher, un singolo modello linguistico multimodale che genera glifi vettoriali ad alta fedeltà direttamente da descrizioni testuali o immagini di esempio. Dato un prompt di stile, immagini di glifi di riferimento opzionali e un carattere target, VecGlypher emette in modo autoregressivo token di tracciati SVG, evitando intermedi raster e producendo in un solo passaggio contorni editabili e continui. Ciò è reso possibile da una ricetta di dati e addestramento consapevole della tipografia: (i) una fase di continuazione su larga scala su 39K font Envato rumorosi per padroneggiare la sintassi SVG e la geometria a lungo orizzonte, seguita da (ii) post-addestramento su 2.5K Google Fonts annotati da esperti con tag descrittivi ed esempi per allineare linguaggio e immagini con la geometria; la pre-elaborazione normalizza i sistemi di coordinate, canonicalizza i tracciati, rimuove i duplicati dalle famiglie e quantizza le coordinate per un decoding stabile di sequenze lunghe. Nella valutazione OOD cross-famiglia, VecGlypher supera sostanzialmente sia LLM generici che baseline specializzati per font vettoriali nella generazione da solo testo, mentre la generazione con riferimento a immagini raggiunge prestazioni allo stato dell'arte, con guadagni marcati rispetto a DeepVecFont-v2 e DualVector. Le ablazioni mostrano che la scala del modello e la ricetta a due stadi sono critiche e che la serializzazione in coordinate assolute produce la geometria migliore. VecGlypher abbassa la barriera per la creazione di font permettendo agli utenti di progettare con parole o esempi, e fornisce una base scalabile per futuri strumenti di design multimodali.

English

Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.

VecGlypher: Generazione Unificata di Glifi Vettoriali con Modelli Linguistici

VecGlypher: Unified Vector Glyph Generation with Language Models

Abstract

Support