InternSVG: Naar Uniforme SVG-taken met Multimodale Grote Taalmodellen
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
Auteurs: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
Samenvatting
Algemene SVG-modellering blijft een uitdaging vanwege gefragmenteerde datasets, beperkte overdraagbaarheid van methoden tussen taken en de moeilijkheid om structurele complexiteit te hanteren. Als reactie hierop benutten we de sterke overdracht- en generalisatiecapaciteiten van multimodale grote taalmodellen (MLLMs) om een geünificeerde modellering te bereiken voor SVG-begrip, -bewerking en -generatie. We presenteren de InternSVG-familie, een geïntegreerde data-benchmark-model suite. De kern hiervan is SAgoge, de grootste en meest uitgebreide multimodale dataset voor SVG-taken, die zowel statische afbeeldingen als dynamische animaties omvat. Het bestrijkt iconen, lange-sequentie illustraties, wetenschappelijke diagrammen en dynamische animaties, ondersteunt taken van verschillende moeilijkheidsgraden en biedt diepere hiërarchieën met rijkere attributen in vergelijking met eerdere datasets. Op basis van deze bron introduceren we SArena, een begeleidende benchmark met uitgebreide taakdefinities en gestandaardiseerde evaluatie die aansluit bij de domeinen en het moeilijkheidsspectrum dat door SAgoge wordt bestreken. Op deze fundamenten voortbouwend, stellen we InternSVG voor, een geünificeerd MLLM voor SVG-begrip, -bewerking en -generatie met SVG-specifieke speciale tokens, subwoord-gebaseerde embedding-initialisatie en een tweefasige trainingsstrategie die evolueert van korte statische SVG's naar lange-sequentie illustraties en complexe animaties. Deze geünificeerde formulering induceert positieve overdracht en verbetert de algehele prestaties. Experimenten op SArena en eerdere benchmarks bevestigen dat InternSVG aanzienlijke winsten behaalt en consistent beter presteert dan toonaangevende open en propriëtaire tegenhangers.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.