VecGlypher: Vereinheitlichte Vektorglyphen-Erzeugung mit Sprachmodellen

Zusammenfassung

Vektorglyphen sind die atomaren Einheiten der digitalen Typografie, doch die meisten lernbasierten Prozesse sind nach wie vor auf aufwändig kuratierte Beispielvorlagen und Raster-zu-Vektor-Nachbearbeitung angewiesen, was Zugänglichkeit und Bearbeitbarkeit einschränkt. Wir stellen VecGlypher vor, ein einzelnes multimodales Sprachmodell, das hochwertige Vektorglyphen direkt aus Textbeschreibungen oder Bildvorlagen erzeugt. Auf Basis eines Stil-Prompts, optionaler Referenzglyphenbilder und eines Zielzeichens emittiert VecGlypher autoregressiv SVG-Pfad-Tokens, umgeht Rasterzwischenstufen und erzeugt in einem Durchgang bearbeitbare, geschlossene Umrisse. Dies ermöglicht eine typografiebewusste Daten- und Trainingsstrategie: (i) eine groß angelegte Fortführungsphase auf 39K verrauschten Envato-Schriften zur Beherrschung der SVG-Syntax und langreichweitiger Geometrie, gefolgt von (ii) Nachtraining auf 2.5K expertenannotierten Google Fonts mit beschreibenden Tags und Beispielen, um Sprache und Bildwelt mit der Geometrie in Einklang zu bringen; die Vorverarbeitung normalisiert Koordinatensysteme, kanonisiert Pfade, entfernt Dubletten aus Schriftfamilien und quantisiert Koordinaten für stabiles Decodieren langer Sequenzen. In der übergreifenden OOD-Evaluation übertrifft VecGlypher bei der rein textbasierten Generierung sowohl allgemeine LLMs als auch spezialisierte Vektorschrift-Baselines deutlich, während die bildgestützte Generierung mit deutlichen Verbesserungen gegenüber DeepVecFont-v2 und DualVector state-of-the-art Leistung erreicht. Ablationstudien zeigen, dass die Modellgröße und das zweistufige Verfahren entscheidend sind und dass die Serialisierung mit absoluten Koordinaten die beste Geometrie liefert. VecGlypher senkt die Einstiegshürde für die Schriftgestaltung, indem es Nutzern ermöglicht, mit Worten oder Beispielen zu entwerfen, und bildet eine skalierbare Grundlage für zukünftige multimodale Designtools.

English

Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.

VecGlypher: Vereinheitlichte Vektorglyphen-Erzeugung mit Sprachmodellen

VecGlypher: Unified Vector Glyph Generation with Language Models

Zusammenfassung

Support