InternSVG: Verso un Approccio Unificato per i Compiti SVG con Modelli Linguistici Multimodali di Grande Scala
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
Autori: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
Abstract
La modellazione generale di SVG rimane impegnativa a causa di dataset frammentati, limitata trasferibilità dei metodi tra i compiti e la difficoltà di gestire la complessità strutturale. In risposta, sfruttiamo le forti capacità di trasferimento e generalizzazione dei modelli linguistici multimodali di grandi dimensioni (MLLM) per ottenere una modellazione unificata per la comprensione, la modifica e la generazione di SVG. Presentiamo la famiglia InternSVG, una suite integrata di dati, benchmark e modelli. Al suo centro c'è SAgoge, il dataset multimodale più vasto e completo per i compiti SVG, che include sia grafiche statiche che animazioni dinamiche. Copre icone, illustrazioni a sequenza lunga, diagrammi scientifici e animazioni dinamiche, supportando compiti di vari livelli di difficoltà e fornendo gerarchie più profonde con attributi più ricchi rispetto ai dataset precedenti. Basandoci su questa risorsa, introduciamo SArena, un benchmark complementare con definizioni di compiti complete e valutazione standardizzata che si allinea ai domini e allo spettro di difficoltà coperti da SAgoge. Costruendo su queste fondamenta, proponiamo InternSVG, un MLLM unificato per la comprensione, la modifica e la generazione di SVG con token speciali specifici per SVG, inizializzazione di embedding basata su sottoparole e una strategia di addestramento in due fasi che progredisce da SVG statici brevi a illustrazioni a sequenza lunga e animazioni complesse. Questa formulazione unificata induce un trasferimento positivo e migliora le prestazioni complessive. Gli esperimenti su SArena e benchmark precedenti confermano che InternSVG ottiene guadagni sostanziali e supera costantemente le controparti leader sia open che proprietarie.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.