Tokenisation hiérarchique en SVG : Apprentissage de programmes visuels compacts pour la modélisation de graphiques vectoriels évolutifs

Résumé

Les grands modèles de langage récents ont fait évoluer la génération de SVG d'une optimisation par rendu différenciable vers une synthèse de programmes autorégressive. Cependant, les approches existantes reposent encore sur une tokenisation générique au niveau des octets, héritée du traitement du langage naturel, qui reflète mal la structure géométrique des graphiques vectoriels. Les coordonnées numériques sont fragmentées en symboles discrets, détruisant les relations spatiales et introduisant une redondance sévère de tokens, conduisant souvent à des hallucinations de coordonnées et une génération inefficace de longues séquences. Pour relever ces défis, nous proposons HiVG, un framework de tokenisation hiérarchique de SVG conçu pour la génération autorégressive de graphiques vectoriels. HiVG décompose les chaînes SVG brutes en tokens atomiques structurés et comprime davantage les groupes commande-paramètre exécutables en tokens segmentaires contraints géométriquement, améliorant substantiellement l'efficacité séquentielle tout en préservant la validité syntaxique. Pour atténuer davantage les inadéquations spatiales, nous introduisons une stratégie d'initialisation hiérarchique Moyenne-Bruit (HMN) qui injecte des signaux d'ordonnancement numérique et des prérequis sémantiques dans les nouveaux plongements lexicaux. Combinée à un paradigme d'apprentissage curriculaire qui augmente progressivement la complexité des programmes, HiVG permet un apprentissage plus stable des programmes SVG exécutables. Des expériences approfondies sur les tâches texte-vers-SVG et image-vers-SVG démontrent une amélioration de la fidélité de génération, de la cohérence spatiale et de l'efficacité séquentielle par rapport aux schémas de tokenisation conventionnels. Notre code est disponible publiquement à https://github.com/ximinng/HiVG

English

Recent large language models have shifted SVG generation from differentiable rendering optimization to autoregressive program synthesis. However, existing approaches still rely on generic byte-level tokenization inherited from natural language processing, which poorly reflects the geometric structure of vector graphics. Numerical coordinates are fragmented into discrete symbols, destroying spatial relationships and introducing severe token redundancy, often leading to coordinate hallucination and inefficient long-sequence generation. To address these challenges, we propose HiVG, a hierarchical SVG tokenization framework tailored for autoregressive vector graphics generation. HiVG decomposes raw SVG strings into structured atomic tokens and further compresses executable command--parameter groups into geometry-constrained segment tokens, substantially improving sequence efficiency while preserving syntactic validity. To further mitigate spatial mismatch, we introduce a Hierarchical Mean--Noise (HMN) initialization strategy that injects numerical ordering signals and semantic priors into new token embeddings. Combined with a curriculum training paradigm that progressively increases program complexity, HiVG enables more stable learning of executable SVG programs. Extensive experiments on both text-to-SVG and image-to-SVG tasks demonstrate improved generation fidelity, spatial consistency, and sequence efficiency compared with conventional tokenization schemes. Our code is publicly available at https://github.com/ximinng/HiVG

Tokenisation hiérarchique en SVG : Apprentissage de programmes visuels compacts pour la modélisation de graphiques vectoriels évolutifs

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling

Résumé

Support