VecGlypher: Geração Unificada de Glifos Vetoriais com Modelos de Linguagem
VecGlypher: Unified Vector Glyph Generation with Language Models
February 25, 2026
Autores: Xiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han
cs.AI
Resumo
Os glifos vetoriais são as unidades atômicas da tipografia digital, no entanto, a maioria dos pipelines baseados em aprendizagem ainda depende de folhas de exemplos cuidadosamente curadas e de pós-processamento de raster para vetor, o que limita a acessibilidade e a editabilidade. Apresentamos o VecGlypher, um único modelo de linguagem multimodal que gera glifos vetoriais de alta fidelidade diretamente a partir de descrições textuais ou exemplos de imagem. Dado um prompt de estilo, glifos de referência opcionais e um caractere alvo, o VecGlypher emite tokens de caminho SVG de forma autoregressiva, evitando intermediários raster e produzindo contornos editáveis e fechados em uma única passagem. Uma receita de dados e treinamento consciente da tipografia torna isso possível: (i) um estágio de continuação em larga escala com 39 mil fontes Envato ruidosas para dominar a sintaxe SVG e a geometria de longo horizonte, seguido por (ii) pós-treinamento em 2,5 mil Google Fonts anotadas por especialistas com tags descritivas e exemplos para alinhar linguagem e imagens com a geometria; o pré-processamento normaliza os sistemas de coordenadas, canoniza os caminhos, remove duplicatas de famílias e quantiza as coordenadas para uma decodificação estável de sequências longas. Na avaliação OOD entre famílias, o VecGlypher supera substancialmente tanto os LLMs de propósito geral quanto as linhas de base especializadas em fontes vetoriais para geração apenas textual, enquanto a geração com referência de imagem atinge um desempenho de última geração, com ganhos marcantes sobre o DeepVecFont-v2 e o DualVector. Ablações mostram que a escala do modelo e a receita de dois estágios são críticas e que a serialização de coordenadas absolutas produz a melhor geometria. O VecGlypher reduz a barreira para a criação de fontes ao permitir que os usuários projetem com palavras ou exemplos, e fornece uma base escalável para futuras ferramentas de design multimodal.
English
Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.