Tokenización SVG Jerárquica: Aprendizaje de Programas Visuales Compactos para el Modelado de Gráficos Vectoriales Escalables

Resumen

Los modelos de lenguaje recientes han desplazado la generación de SVG desde la optimización mediante renderizado diferenciable hacia la síntesis autoregresiva de programas. Sin embargo, los enfoques existentes aún dependen de una tokenización genérica a nivel de byte heredada del procesamiento del lenguaje natural, que refleja pobremente la estructura geométrica de los gráficos vectoriales. Las coordenadas numéricas se fragmentan en símbolos discretos, destruyendo las relaciones espaciales e introduciendo una severa redundancia de tokens, lo que a menudo conduce a alucinación de coordenadas y a una generación ineficiente de secuencias largas. Para abordar estos desafíos, proponemos HiVG, un marco de tokenización SVG jerárquico diseñado para la generación autoregresiva de gráficos vectoriales. HiVG descompone las cadenas SVG crudas en tokens atómicos estructurados y comprime aún más los grupos ejecutables de comandos-parámetros en tokens de segmento con restricciones geométricas, mejorando sustancialmente la eficiencia de la secuencia mientras preserva la validez sintáctica. Para mitigar aún más el desajuste espacial, introducimos una estrategia de inicialización Jerárquica Media-Ruido (HMN) que inyecta señales de ordenamiento numérico y *priors* semánticos en las nuevas incrustaciones de tokens. Combinado con un paradigma de entrenamiento curricular que incrementa progresivamente la complejidad del programa, HiVG permite un aprendizaje más estable de programas SVG ejecutables. Experimentos exhaustivos en tareas de texto-a-SVG e imagen-a-SVG demuestran una mejora en la fidelidad de generación, la consistencia espacial y la eficiencia de secuencia en comparación con esquemas de tokenización convencionales. Nuestro código está disponible públicamente en https://github.com/ximinng/HiVG.

English

Recent large language models have shifted SVG generation from differentiable rendering optimization to autoregressive program synthesis. However, existing approaches still rely on generic byte-level tokenization inherited from natural language processing, which poorly reflects the geometric structure of vector graphics. Numerical coordinates are fragmented into discrete symbols, destroying spatial relationships and introducing severe token redundancy, often leading to coordinate hallucination and inefficient long-sequence generation. To address these challenges, we propose HiVG, a hierarchical SVG tokenization framework tailored for autoregressive vector graphics generation. HiVG decomposes raw SVG strings into structured atomic tokens and further compresses executable command--parameter groups into geometry-constrained segment tokens, substantially improving sequence efficiency while preserving syntactic validity. To further mitigate spatial mismatch, we introduce a Hierarchical Mean--Noise (HMN) initialization strategy that injects numerical ordering signals and semantic priors into new token embeddings. Combined with a curriculum training paradigm that progressively increases program complexity, HiVG enables more stable learning of executable SVG programs. Extensive experiments on both text-to-SVG and image-to-SVG tasks demonstrate improved generation fidelity, spatial consistency, and sequence efficiency compared with conventional tokenization schemes. Our code is publicly available at https://github.com/ximinng/HiVG

Tokenización SVG Jerárquica: Aprendizaje de Programas Visuales Compactos para el Modelado de Gráficos Vectoriales Escalables

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling

Resumen

Support