Hierarchische SVG-Tokenisierung: Kompakte visuelle Programme für skalierbare Vektorgrafikmodellierung lernen

Zusammenfassung

Aktuelle große Sprachmodelle haben die SVG-Generierung von differenzierbarer Renderoptimierung zu autoregressiver Programmsynthese verlagert. Bestehende Ansätze verlassen sich jedoch weiterhin auf generische Byte-Level-Tokenisierung, die von der natürlichen Sprachverarbeitung übernommen wurde und die geometrische Struktur von Vektorgrafiken nur unzureichend abbildet. Numerische Koordinaten werden in diskrete Symbole fragmentiert, was räumliche Beziehungen zerstört und erhebliche Token-Redundanz einführt, was häufig zu Koordinatenhalluzinationen und ineffizienter Langsequenzgenerierung führt. Um diese Herausforderungen zu bewältigen, schlagen wir HiVG vor, ein hierarchisches SVG-Tokenisierungsframework für die autoregressive Vektorgrafikgenerierung. HiVG zerlegt rohe SVG-Strings in strukturierte atomare Tokens und komprimiert weiterhin ausführbare Befehl-Parameter-Gruppen in geometrie-eingeschränkte Segmenttokens, wodurch die Sequenzeffizienz erheblich verbessert wird, während die syntaktische Validität erhalten bleibt. Um räumliche Fehlanpassungen weiter zu mildern, führen wir eine Hierarchical Mean–Noise (HMN)-Initialisierungsstrategie ein, die numerische Ordnungssignale und semantische Priors in neue Token-Einbettungen injiziert. Kombiniert mit einem Curriculum-Training-Paradigma, das die Programmkplexität progressiv erhöht, ermöglicht HiVG ein stabileres Lernen ausführbarer SVG-Programme. Umfangreiche Experimente sowohl für Text-zu-SVG- als auch für Bild-zu-SVG-Aufgaben demonstrieren verbesserte Generierungstreue, räumliche Konsistenz und Sequenzeffizienz im Vergleich zu konventionellen Tokenisierungsschemata. Unser Code ist öffentlich verfügbar unter https://github.com/ximinng/HiVG.

English

Recent large language models have shifted SVG generation from differentiable rendering optimization to autoregressive program synthesis. However, existing approaches still rely on generic byte-level tokenization inherited from natural language processing, which poorly reflects the geometric structure of vector graphics. Numerical coordinates are fragmented into discrete symbols, destroying spatial relationships and introducing severe token redundancy, often leading to coordinate hallucination and inefficient long-sequence generation. To address these challenges, we propose HiVG, a hierarchical SVG tokenization framework tailored for autoregressive vector graphics generation. HiVG decomposes raw SVG strings into structured atomic tokens and further compresses executable command--parameter groups into geometry-constrained segment tokens, substantially improving sequence efficiency while preserving syntactic validity. To further mitigate spatial mismatch, we introduce a Hierarchical Mean--Noise (HMN) initialization strategy that injects numerical ordering signals and semantic priors into new token embeddings. Combined with a curriculum training paradigm that progressively increases program complexity, HiVG enables more stable learning of executable SVG programs. Extensive experiments on both text-to-SVG and image-to-SVG tasks demonstrate improved generation fidelity, spatial consistency, and sequence efficiency compared with conventional tokenization schemes. Our code is publicly available at https://github.com/ximinng/HiVG

Hierarchische SVG-Tokenisierung: Kompakte visuelle Programme für skalierbare Vektorgrafikmodellierung lernen

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling

Zusammenfassung

Support