InternSVG : Vers une unification des tâches SVG grâce aux modèles de langage multimodal de grande envergure
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
papers.authors: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
papers.abstract
La modélisation générale des SVG reste un défi en raison de la fragmentation des jeux de données, de la transférabilité limitée des méthodes entre les tâches et de la difficulté à gérer la complexité structurelle. Pour y répondre, nous exploitons les fortes capacités de transfert et de généralisation des modèles de langage multimodaux de grande taille (MLLMs) afin de réaliser une modélisation unifiée pour la compréhension, l'édition et la génération de SVG. Nous présentons la famille InternSVG, une suite intégrée de données, de références et de modèles. Au cœur de cette suite se trouve SAgoge, le jeu de données multimodal le plus vaste et le plus complet pour les tâches liées aux SVG, englobant à la fois des graphiques statiques et des animations dynamiques. Il couvre des icônes, des illustrations à longues séquences, des diagrammes scientifiques et des animations dynamiques, supportant des tâches de niveaux de difficulté variés et offrant des hiérarchies plus profondes avec des attributs plus riches par rapport aux jeux de données précédents. Sur la base de cette ressource, nous introduisons SArena, un benchmark complémentaire avec des définitions de tâches exhaustives et une évaluation standardisée qui s'aligne sur les domaines et le spectre de difficulté couverts par SAgoge. En nous appuyant sur ces fondations, nous proposons InternSVG, un MLLM unifié pour la compréhension, l'édition et la génération de SVG, doté de tokens spéciaux spécifiques aux SVG, d'une initialisation d'embedding basée sur des sous-mots et d'une stratégie d'entraînement en deux étapes qui progresse des SVG statiques courts aux illustrations à longues séquences et aux animations complexes. Cette formulation unifiée induit un transfert positif et améliore les performances globales. Les expériences sur SArena et les benchmarks antérieurs confirment qu'InternSVG obtient des gains substantiels et surpasse systématiquement les meilleures solutions ouvertes et propriétaires existantes.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.