InternSVG: Auf dem Weg zu einheitlichen SVG-Aufgaben mit multimodalen großen Sprachmodellen
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
papers.authors: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
papers.abstract
Die allgemeine Modellierung von SVG bleibt aufgrund fragmentierter Datensätze, begrenzter Übertragbarkeit von Methoden über verschiedene Aufgaben hinweg und der Schwierigkeit, strukturelle Komplexität zu bewältigen, eine Herausforderung. Als Antwort darauf nutzen wir die starken Transfer- und Generalisierungsfähigkeiten multimodaler großer Sprachmodelle (MLLMs), um eine einheitliche Modellierung für das Verständnis, die Bearbeitung und die Generierung von SVG zu erreichen. Wir präsentieren die InternSVG-Familie, eine integrierte Daten-Benchmark-Modell-Suite. Im Kern steht SAgoge, der größte und umfassendste multimodale Datensatz für SVG-Aufgaben, der sowohl statische Grafiken als auch dynamische Animationen umfasst. Er deckt Icons, langsequenzige Illustrationen, wissenschaftliche Diagramme und dynamische Animationen ab, unterstützt Aufgaben unterschiedlicher Schwierigkeitsgrade und bietet im Vergleich zu früheren Datensätzen tiefere Hierarchien mit reicheren Attributen. Basierend auf dieser Ressource führen wir SArena ein, einen begleitenden Benchmark mit umfassenden Aufgabendefinitionen und standardisierter Bewertung, die sich an den von SAgoge abgedeckten Domänen und dem Schwierigkeitsspektrum orientieren. Auf diesen Grundlagen aufbauend schlagen wir InternSVG vor, ein einheitliches MLLM für das Verständnis, die Bearbeitung und die Generierung von SVG mit SVG-spezifischen Sonderzeichen, subwortbasierter Embedding-Initialisierung und einer zweistufigen Trainingsstrategie, die von kurzen statischen SVGs zu langsequenzigen Illustrationen und komplexen Animationen fortschreitet. Diese einheitliche Formulierung induziert positiven Transfer und verbessert die Gesamtleistung. Experimente auf SArena und früheren Benchmarks bestätigen, dass InternSVG erhebliche Gewinne erzielt und führende offene und proprietäre Gegenstücke konsequent übertrifft.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.