VecGlypher: 言語モデルによる統合ベクターグリフ生成
VecGlypher: Unified Vector Glyph Generation with Language Models
February 25, 2026
著者: Xiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han
cs.AI
要旨
ベクターグリフはデジタルタイポグラフィの基本単位であるが、多くの学習ベースのパイプラインは依然として注意深くキュレーションされた見本シートとラスターからベクターへの後処理に依存しており、アクセシビリティと編集性が制限されている。我々はVecGlypherを提案する。これはテキスト記述または画像見本から直接高精細なベクターグリフを生成する単一のマルチモーダル言語モデルである。スタイルプロンプト、オプションの参照グリフ画像、およびターゲット文字が与えられると、VecGlypherは自己回帰的にSVGパストークンを出力し、ラスター中間表現を回避し、編集可能で水密なアウトラインを一括で生成する。これを可能にしているのは、タイポグラフィを意識したデータとトレーニング手法である:(i) 39KのノイジーなEnvatoフォントを用いた大規模継続学習段階によりSVG構文と長距離の幾何学構造を習得し、(ii) 記述タグと見本が付いた2.5Kの専門家注釈済みGoogle Fontsでの事後学習により、言語と画像を幾何学構造に整合させる。前処理では、安定した長系列デコードのために座標フレームの正規化、パスの正規化、ファミリーの重複排除、座標の量子化が行われる。クロスファミリーのOOD評価において、VecGlypherはテキストのみの生成において汎用LLMと専門的なベクターフォントベースラインの両方を大幅に上回り、画像参照生成ではDeepVecFont-v2およびDualVectorを大きく上回る最新の性能に達した。アブレーション研究により、モデル規模と2段階の学習手法が重要であり、絶対座標シリアライゼーションが最良の幾何学精度をもたらすことが示された。VecGlypherは、ユーザーが言葉や見本を使ってデザインできるようにすることでフォント作成の障壁を下げ、将来のマルチモーダルデザインツールのためのスケーラブルな基盤を提供する。
English
Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.