VecGlypher: Geünificeerde Vector Glyfgeneratie met Taalmodellen

Samenvatting

Vector glyphs vormen de atomaire eenheden van digitale typografie, maar de meeste op leren gebaseerde pijplijnen zijn nog steeds afhankelijk van zorgvuldig samengestelde voorbeeldbladen en raster-naar-vector nabewerking, wat de toegankelijkheid en bewerkbaarheid beperkt. Wij introduceren VecGlypher, een enkel multimodaal taalmodel dat vector glyphs met hoge betrouwbaarheid direct genereert vanuit tekstbeschrijvingen of beeldvoorbeelden. Gegeven een stijlprompt, optionele referentie-glyphafbeeldingen en een doelteken, zendt VecGlypher autoregressief SVG-padtokens uit, waarbij tussenliggende rasterstappen worden vermeden en bewerkbare, gesloten omtrekken in één keer worden geproduceerd. Een typografiebewuste data- en trainingsaanpak maakt dit mogelijk: (i) een grootschalige voortzettingsfase op 39K ruwe Envato-lettertypen om SVG-syntaxis en lange-termijn geometrie onder de knie te krijgen, gevolgd door (ii) nabewerkingstraining op 2.5K deskundig geannoteerde Google Fonts met beschrijvende tags en voorbeelden om taal en beeldmateriaal af te stemmen op geometrie; voorbewerking normaliseert coördinatenstelsels, kanoniseert paden, dedupliceert families en kwantiseert coördinaten voor stabiele decodering van lange sequenties. Bij cross-family OOD-evaluatie presteert VecGlypher aanzienlijk beter dan zowel algemene LLM's als gespecialiseerde vector-lettertype-baselines voor uitsluitend tekstgebaseerde generatie, terwijl beeldverwezen generatie state-of-the-art prestaties bereikt, met aanzienlijke verbeteringen ten opzichte van DeepVecFont-v2 en DualVector. Ablatiestudies tonen aan dat modelschaal en het tweefasenrecept cruciaal zijn en dat serialisatie met absolute coördinaten de beste geometrie oplevert. VecGlypher verlaagt de drempel voor het creëren van lettertypen door gebruikers met woorden of voorbeelden te laten ontwerpen, en biedt een schaalbare basis voor toekomstige multimodale ontwerpgereedschappen.

English

Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.

VecGlypher: Geünificeerde Vector Glyfgeneratie met Taalmodellen

VecGlypher: Unified Vector Glyph Generation with Language Models

Samenvatting

Support