ChatPaper.aiChatPaper

Tokenizzazione SVG Gerarchica: Apprendimento di Programmi Visivi Compatti per la Modellazione di Grafica Vettoriale Scalabile

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling

April 10, 2026
Autori: Ximing Xing, Ziteng Xue, Zhenxi Li, Weicong Liang, Linqing Wang, Zhantao Yang, Tiankai Hang, Zijin Yin, Qinglin Lu, Chunyu Wang, Qian Yu
cs.AI

Abstract

I recenti modelli linguistici di grandi dimensioni hanno spostato la generazione di SVG dall'ottimizzazione del rendering differenziabile alla sintesi autoregressiva di programmi. Tuttavia, gli approcci esistenti si basano ancora sulla tokenizzazione generica a livello di byte ereditata dall'elaborazione del linguaggio naturale, che riflette scarsamente la struttura geometrica della grafica vettoriale. Le coordinate numeriche vengono frammentate in simboli discreti, distruggendo le relazioni spaziali e introducendo una grave ridondanza di token, che spesso porta ad allucinazioni di coordinate e a una generazione inefficiente di sequenze lunghe. Per affrontare queste sfide, proponiamo HiVG, un framework di tokenizzazione SVG gerarchico studiato per la generazione autoregressiva di grafica vettoriale. HiVG scompone le stringhe SVG grezze in token atomici strutturati e comprime ulteriormente i gruppi comando-parametro eseguibili in token di segmento vincolati geometricamente, migliorando sostanzialmente l'efficienza della sequenza preservando al contempo la validità sintattica. Per mitigare ulteriormente la discrepanza spaziale, introduciamo una strategia di inizializzazione Gerarchica Media-Rumore (HMN) che inietta segnali di ordinamento numerico e priori semantici nei nuovi embedding di token. Combinata con un paradigma di addestramento curriculare che aumenta progressivamente la complessità del programma, HiVG consente un apprendimento più stabile di programmi SVG eseguibili. Esperimenti estesi su compiti sia text-to-SVG che image-to-SVG dimostrano un miglioramento della fedeltà di generazione, della coerenza spaziale e dell'efficienza della sequenza rispetto agli schemi di tokenizzazione convenzionali. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/ximinng/HiVG.
English
Recent large language models have shifted SVG generation from differentiable rendering optimization to autoregressive program synthesis. However, existing approaches still rely on generic byte-level tokenization inherited from natural language processing, which poorly reflects the geometric structure of vector graphics. Numerical coordinates are fragmented into discrete symbols, destroying spatial relationships and introducing severe token redundancy, often leading to coordinate hallucination and inefficient long-sequence generation. To address these challenges, we propose HiVG, a hierarchical SVG tokenization framework tailored for autoregressive vector graphics generation. HiVG decomposes raw SVG strings into structured atomic tokens and further compresses executable command--parameter groups into geometry-constrained segment tokens, substantially improving sequence efficiency while preserving syntactic validity. To further mitigate spatial mismatch, we introduce a Hierarchical Mean--Noise (HMN) initialization strategy that injects numerical ordering signals and semantic priors into new token embeddings. Combined with a curriculum training paradigm that progressively increases program complexity, HiVG enables more stable learning of executable SVG programs. Extensive experiments on both text-to-SVG and image-to-SVG tasks demonstrate improved generation fidelity, spatial consistency, and sequence efficiency compared with conventional tokenization schemes. Our code is publicly available at https://github.com/ximinng/HiVG
PDF172April 18, 2026