Иерархическая SVG-токенизация: обучение компактных визуальных программ для моделирования масштабируемой векторной графики
Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling
April 10, 2026
Авторы: Ximing Xing, Ziteng Xue, Zhenxi Li, Weicong Liang, Linqing Wang, Zhantao Yang, Tiankai Hang, Zijin Yin, Qinglin Lu, Chunyu Wang, Qian Yu
cs.AI
Аннотация
Современные крупные языковые модели перешли от оптимизации дифференцируемого рендеринга к авторегрессионному синтезу программ для генерации SVG. Однако существующие подходы по-прежнему полагаются на унифицированную байтовую токенизацию, унаследованную из обработки естественного языка, которая плохо отражает геометрическую структуру векторной графики. Числовые координаты фрагментируются на дискретные символы, разрушая пространственные связи и внося значительную избыточность токенов, что часто приводит к галлюцинациям координат и неэффективной генерации длинных последовательностей. Для решения этих проблем мы предлагаем HiVG — иерархическую框架 токенизации SVG, предназначенную для авторегрессионной генерации векторной графики. HiVG разлагает исходные строки SVG на структурированные атомарные токены и дополнительно сжимает исполняемые группы команд-параметров в сегментные токены с геометрическими ограничениями, существенно повышая эффективность последовательностей при сохранении синтаксической корректности. Для дальнейшего снижения пространственного несоответствия мы вводим стратегию иерархической инициализации «Усреднение-Шум» (HMN), которая внедряет сигналы числовой упорядоченности и семантические априорные знания в новые эмбеддинги токенов. В сочетании с парадигмой обучения по учебному плану, постепенно увеличивающей сложность программ, HiVG обеспечивает более стабильное изучение исполняемых программ SVG. Многочисленные эксперименты по задачам текст-SVG и изображение-SVG демонстрируют улучшенную точность генерации, пространственную согласованность и эффективность последовательностей по сравнению с традиционными схемами токенизации. Наш код доступен по адресу https://github.com/ximinng/HiVG.
English
Recent large language models have shifted SVG generation from differentiable rendering optimization to autoregressive program synthesis. However, existing approaches still rely on generic byte-level tokenization inherited from natural language processing, which poorly reflects the geometric structure of vector graphics. Numerical coordinates are fragmented into discrete symbols, destroying spatial relationships and introducing severe token redundancy, often leading to coordinate hallucination and inefficient long-sequence generation. To address these challenges, we propose HiVG, a hierarchical SVG tokenization framework tailored for autoregressive vector graphics generation. HiVG decomposes raw SVG strings into structured atomic tokens and further compresses executable command--parameter groups into geometry-constrained segment tokens, substantially improving sequence efficiency while preserving syntactic validity. To further mitigate spatial mismatch, we introduce a Hierarchical Mean--Noise (HMN) initialization strategy that injects numerical ordering signals and semantic priors into new token embeddings. Combined with a curriculum training paradigm that progressively increases program complexity, HiVG enables more stable learning of executable SVG programs. Extensive experiments on both text-to-SVG and image-to-SVG tasks demonstrate improved generation fidelity, spatial consistency, and sequence efficiency compared with conventional tokenization schemes. Our code is publicly available at https://github.com/ximinng/HiVG