VecGlypher: Единая генерация векторных глифов с использованием языковых моделей

Аннотация

Векторные глифы являются атомарными единицами цифровой типографики, однако большинство обучаемых конвейеров по-прежнему зависят от тщательно отобранных образцовых листов и растрово-векторной постобработки, что ограничивает доступность и возможность редактирования. Мы представляем VecGlypher — единственную мультимодальную языковую модель, которая генерирует высококачественные векторные глифы непосредственно из текстовых описаний или образцов изображений. Получив стилевой промт, опциональные эталонные изображения глифов и целевой символ, VecGlypher авторегрессивно выдает токены SVG-путей, избегая растровых промежуточных представлений и создавая редактируемые, водонепроницаемые контуры за один проход. Это стало возможным благодаря типографски ориентированным данным и методике обучения: (i) масштабный этап продолжения на 39 тыс. зашумленных шрифтов Envato для освоения синтаксиса SVG и долгосрочной геометрии, за которым следует (ii) дообучение на 2,5 тыс. экспертно размеченных шрифтов Google Fonts с описательными тегами и образцами для согласования языка и изображений с геометрией; предобработка нормализует системы координат, канонизирует пути, устраняет дубликаты семейств и квантует координаты для стабильного декодирования длинных последовательностей. При кросс-семейной оценке на несмещенных данных VecGlypher значительно превосходит как общецелевые большие языковые модели, так и специализированные векторно-шрифтовые базовые методы для генерации только по тексту, в то время как генерация с опорой на изображения достигает уровня современных достижений с существенным преимуществом над DeepVecFont-v2 и DualVector. Абляционные исследования показывают, что масштаб модели и двухэтапная методика обучения являются критически важными, а сериализация в абсолютных координатах дает наилучшую геометрию. VecGlypher снижает барьер для создания шрифтов, позволяя пользователям проектировать с помощью слов или образцов, и закладывает масштабируемую основу для будущих мультимодальных инструментов дизайна.

English

Vector glyphs are the atomic units of digital typography, yet most learning-based pipelines still depend on carefully curated exemplar sheets and raster-to-vector postprocessing, which limits accessibility and editability. We introduce VecGlypher, a single multimodal language model that generates high-fidelity vector glyphs directly from text descriptions or image exemplars. Given a style prompt, optional reference glyph images, and a target character, VecGlypher autoregressively emits SVG path tokens, avoiding raster intermediates and producing editable, watertight outlines in one pass. A typography-aware data and training recipe makes this possible: (i) a large-scale continuation stage on 39K noisy Envato fonts to master SVG syntax and long-horizon geometry, followed by (ii) post-training on 2.5K expert-annotated Google Fonts with descriptive tags and exemplars to align language and imagery with geometry; preprocessing normalizes coordinate frames, canonicalizes paths, de-duplicates families, and quantizes coordinates for stable long-sequence decoding. On cross-family OOD evaluation, VecGlypher substantially outperforms both general-purpose LLMs and specialized vector-font baselines for text-only generation, while image-referenced generation reaches a state-of-the-art performance, with marked gains over DeepVecFont-v2 and DualVector. Ablations show that model scale and the two-stage recipe are critical and that absolute-coordinate serialization yields the best geometry. VecGlypher lowers the barrier to font creation by letting users design with words or exemplars, and provides a scalable foundation for future multimodal design tools.

VecGlypher: Единая генерация векторных глифов с использованием языковых моделей

VecGlypher: Unified Vector Glyph Generation with Language Models

Аннотация

Support