VecGlypher: Geração Unificada de Glifos Vetoriais com Modelos de Linguagem

Resumo

Os glifos vetoriais são as unidades atômicas da tipografia digital, no entanto, a maioria dos pipelines baseados em aprendizagem ainda depende de folhas de exemplos cuidadosamente curadas e de pós-processamento de raster para vetor, o que limita a acessibilidade e a editabilidade. Apresentamos o VecGlypher, um único modelo de linguagem multimodal que gera glifos vetoriais de alta fidelidade diretamente a partir de descrições textuais ou exemplos de imagem. Dado um prompt de estilo, glifos de referência opcionais e um caractere alvo, o VecGlypher emite tokens de caminho SVG de forma autoregressiva, evitando intermediários raster e produzindo contornos editáveis e fechados em uma única passagem. Uma receita de dados e treinamento consciente da tipografia torna isso possível: (i) um estágio de continuação em larga escala com 39 mil fontes Envato ruidosas para dominar a sintaxe SVG e a geometria de longo horizonte, seguido por (ii) pós-treinamento em 2,5 mil Google Fonts anotadas por especialistas com tags descritivas e exemplos para alinhar linguagem e imagens com a geometria; o pré-processamento normaliza os sistemas de coordenadas, canoniza os caminhos, remove duplicatas de famílias e quantiza as coordenadas para uma decodificação estável de sequências longas. Na avaliação OOD entre famílias, o VecGlypher supera substancialmente tanto os LLMs de propósito geral quanto as linhas de base especializadas em fontes vetoriais para geração apenas textual, enquanto a geração com referência de imagem atinge um desempenho de última geração, com ganhos marcantes sobre o DeepVecFont-v2 e o DualVector. Ablações mostram que a escala do modelo e a receita de dois estágios são críticas e que a serialização de coordenadas absolutas produz a melhor geometria. O VecGlypher reduz a barreira para a criação de fontes ao permitir que os usuários projetem com palavras ou exemplos, e fornece uma base escalável para futuras ferramentas de design multimodal.

English

Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.