VecGlypher : Génération unifiée de glyphes vectoriels avec des modèles de langage
VecGlypher: Unified Vector Glyph Generation with Language Models
February 25, 2026
papers.authors: Xiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han
cs.AI
papers.abstract
Les glyphes vectoriels sont les unités atomiques de la typographie numérique, pourtant la plupart des pipelines d'apprentissage automatique dépendent toujours de planches d'exemplaires soigneusement sélectionnées et d'un post-traitement raster-vecteur, ce qui limite l'accessibilité et l'éditabilité. Nous présentons VecGlypher, un modèle de langage multimodal unique qui génère des glyphes vectoriels de haute fidélité directement à partir de descriptions textuelles ou d'exemplaires images. Étant donné un prompt de style, des images de glyphes de référence optionnelles et un caractère cible, VecGlypher émet de manière autorégressive des tokens de chemins SVG, évitant les intermédiaires raster et produisant en une seule passe des contours étanches et éditables. Une approche de données et d'entraînement consciente de la typographie rend cela possible : (i) une étape de continuation à grande échelle sur 39 000 polices Envato bruitées pour maîtriser la syntaxe SVG et la géométrie à long terme, suivie de (ii) un post-entraînement sur 2 500 Google Fonts annotées par des experts avec des étiquettes descriptives et des exemplaires pour aligner le langage et l'imagerie avec la géométrie ; le prétraitement normalise les repères de coordonnées, canonicalise les chemins, déduplique les familles et quantifie les coordonnées pour un décodage stable de longues séquences. Lors de l'évaluation hors distribution (OOD) inter-familles, VecGlypher surpasse substantiellement à la fois les LLM généralistes et les modèles de référence spécialisés dans la génération de polices vectorielles pour la génération basée uniquement sur le texte, tandis que la génération par référence image atteint des performances à l'état de l'art, avec des gains marqués par rapport à DeepVecFont-v2 et DualVector. Les études d'ablation montrent que l'échelle du modèle et la recette en deux étapes sont critiques et que la sérialisation en coordonnées absolues produit la meilleure géométrie. VecGlypher abaisse la barrière de la création de polices en permettant aux utilisateurs de concevoir avec des mots ou des exemplaires, et fournit une base évolutive pour les futurs outils de conception multimodale.
English
Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.