VecGlypher: 언어 모델 기반 통합 벡터 글리프 생성
VecGlypher: Unified Vector Glyph Generation with Language Models
February 25, 2026
저자: Xiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han
cs.AI
초록
벡터 글리프는 디지털 타이포그래피의 기본 단위이지만, 대부분의 학습 기반 파이프라인은 여전히 신중하게 선별된 예시 시트와 래스터-벡터 후처리에 의존하여 접근성과 편집성을 제한하고 있습니다. 우리는 텍스트 설명이나 이미지 예시로부터 직접 고품질 벡터 글리프를 생성하는 단일 멀티모달 언어 모델인 VecGlypher를 소개합니다. 스타일 프롬프트, 선택적 참조 글리프 이미지, 그리고 대상 문자를 입력받으면 VecGlypher는 자동회귀적으로 SVG 경로 토큰을 출력하여 래스터 중간 과정을 피하고 한 번에 편집 가능하고 밀폐된 윤곽선을 생성합니다. 이를 가능하게 하는 것은 타이포그래피 인식 데이터 및 학습 방법론입니다: (i) SVG 구문과 장기간 기하구조 숙달을 위한 39K개의 노이즈가 포함된 Envato 폰트에 대한 대규모 확장 학습 단계, 이어서 (ii) 언어와 이미지를 기하구조와 정렬하기 위해 설명 태그와 예시가 포함된 2.5K개의 전문가 주석 Google Fonts에 대한 사후 학습 단계; 전처리 과정은 좌표계 정규화, 경로 표준화, 패밀리 중복 제거, 그리고 안정적인 장문열 디코딩을 위한 좌표 양자화를 수행합니다. 교차 패밀리 외부 분포 평가에서 VecGlypher는 텍스트 전용 생성에 있어 범용 LLM과 전문 벡터 폰트 기준 모델을 모두 크게 능가하며, 이미지 참조 생성은 최첨단 성능에 도달하여 DeepVecFont-v2 및 DualVector 대비 현저한 향상을 보입니다. Ablation 연구는 모델 규모와 두 단계 학습 방법론이 중요하며 절대 좌표 직렬화가 최상의 기하구조 결과를 제공함을 보여줍니다. VecGlypher는 사용자가 단어나 예시로 디자인할 수 있게 하여 폰트 제작의 장벽을 낮추고, 향후 멀티모달 디자인 도구를 위한 확장 가능한 기반을 제공합니다.
English
Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.