ChatPaper.aiChatPaper

VecGlypher: Generación Unificada de Glifos Vectoriales con Modelos de Lenguaje

VecGlypher: Unified Vector Glyph Generation with Language Models

February 25, 2026
Autores: Xiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han
cs.AI

Resumen

Los glifos vectoriales son las unidades atómicas de la tipografía digital, sin embargo, la mayoría de los flujos de trabajo basados en aprendizaje aún dependen de láminas de ejemplos cuidadosamente seleccionadas y de un postprocesado de rasterizado a vector, lo que limita la accesibilidad y la capacidad de edición. Presentamos VecGlypher, un modelo de lenguaje multimodal único que genera glifos vectoriales de alta fidelidad directamente a partir de descripciones textuales o imágenes de ejemplo. Dado un *prompt* de estilo, glifos de referencia opcionales y un carácter objetivo, VecGlypher emite de manera autoregresiva tokens de rutas SVG, evitando intermediarios de rasterizado y produciendo contornos editables y cerrados en un solo paso. Una receta de datos y entrenamiento consciente de la tipografía hace esto posible: (i) una etapa de continuación a gran escala con 39K fuentes Envato ruidosas para dominar la sintaxis SVG y la geometría de largo alcance, seguida de (ii) un post-entrenamiento con 2.5K fuentes Google anotadas por expertos, con etiquetas descriptivas y ejemplos, para alinear el lenguaje y la imaginería con la geometría; el preprocesado normaliza los marcos de coordenadas, canoniza las rutas, elimina duplicados de familias y cuantiza las coordenadas para una decodificación estable de secuencias largas. En una evaluación *out-of-distribution* (OOD) cruzada entre familias, VecGlypher supera sustancialmente tanto a los LLM de propósito general como a los baselines especializados en fuentes vectoriales para la generación basada únicamente en texto, mientras que la generación con referencia de imágenes alcanza un rendimiento state-of-the-art, con ganancias notables sobre DeepVecFont-v2 y DualVector. Las ablaciones muestran que la escala del modelo y la receta de dos etapas son críticas, y que la serialización con coordenadas absolutas produce la mejor geometría. VecGlypher reduce la barrera de entrada a la creación de fuentes al permitir a los usuarios diseñar con palabras o ejemplos, y proporciona una base escalable para futuras herramientas de diseño multimodal.
English
Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.
PDF92February 27, 2026