Tokenização Hierárquica de SVG: Aprendendo Programas Visuais Compactos para Modelagem de Gráficos Vetoriais Escaláveis
Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling
April 10, 2026
Autores: Ximing Xing, Ziteng Xue, Zhenxi Li, Weicong Liang, Linqing Wang, Zhantao Yang, Tiankai Hang, Zijin Yin, Qinglin Lu, Chunyu Wang, Qian Yu
cs.AI
Resumo
Os modelos de linguagem de grande escala recentes mudaram a geração de SVG da otimização por renderização diferenciável para a síntese autoregressiva de programas. No entanto, as abordagens existentes ainda dependem da tokenização genérica a nível de byte, herdada do processamento de linguagem natural, que reflete mal a estrutura geométrica dos gráficos vetoriais. As coordenadas numéricas são fragmentadas em símbolos discretos, destruindo relações espaciais e introduzindo severa redundância de tokens, frequentemente levando à alucinação de coordenadas e à geração ineficiente de sequências longas. Para enfrentar esses desafios, propomos o HiVG, uma estrutura hierárquica de tokenização de SVG adaptada para a geração autoregressiva de gráficos vetoriais. O HiVG decompõe strings SVG brutas em tokens atômicos estruturados e comprime ainda mais grupos de comandos executáveis e parâmetros em tokens de segmento com restrições geométricas, melhorando substancialmente a eficiência da sequência enquanto preserva a validade sintática. Para mitigar ainda mais o desalinhamento espacial, introduzimos uma estratégia de inicialização Hierárquica de Média-Ruído (HMN) que injeta sinais de ordenação numérica e *priors* semânticos nos novos *embeddings* de tokens. Combinado com um paradigma de treinamento curricular que aumenta progressivamente a complexidade do programa, o HiVG permite uma aprendizagem mais estável de programas SVG executáveis. Experimentos extensivos em tarefas de texto-para-SVG e imagem-para-SVG demonstram uma fidelidade de geração, consistência espacial e eficiência de sequência melhoradas em comparação com esquemas de tokenização convencionais. O nosso código está publicamente disponível em https://github.com/ximinng/HiVG.
English
Recent large language models have shifted SVG generation from differentiable rendering optimization to autoregressive program synthesis. However, existing approaches still rely on generic byte-level tokenization inherited from natural language processing, which poorly reflects the geometric structure of vector graphics. Numerical coordinates are fragmented into discrete symbols, destroying spatial relationships and introducing severe token redundancy, often leading to coordinate hallucination and inefficient long-sequence generation. To address these challenges, we propose HiVG, a hierarchical SVG tokenization framework tailored for autoregressive vector graphics generation. HiVG decomposes raw SVG strings into structured atomic tokens and further compresses executable command--parameter groups into geometry-constrained segment tokens, substantially improving sequence efficiency while preserving syntactic validity. To further mitigate spatial mismatch, we introduce a Hierarchical Mean--Noise (HMN) initialization strategy that injects numerical ordering signals and semantic priors into new token embeddings. Combined with a curriculum training paradigm that progressively increases program complexity, HiVG enables more stable learning of executable SVG programs. Extensive experiments on both text-to-SVG and image-to-SVG tasks demonstrate improved generation fidelity, spatial consistency, and sequence efficiency compared with conventional tokenization schemes. Our code is publicly available at https://github.com/ximinng/HiVG