InternSVG: К унификации задач SVG с использованием мультимодальных больших языковых моделей
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
Авторы: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
Аннотация
Моделирование SVG в общем случае остается сложной задачей из-за фрагментированных наборов данных, ограниченной переносимости методов между задачами и трудностей обработки структурной сложности. В ответ на это мы используем мощные возможности трансфера и обобщения мультимодальных больших языковых моделей (MLLM) для достижения унифицированного моделирования в задачах понимания, редактирования и генерации SVG. Мы представляем семейство InternSVG — интегрированный набор данных, бенчмарков и моделей. В его основе лежит SAgoge, самый крупный и всеобъемлющий мультимодальный набор данных для задач SVG, включающий как статичную графику, так и динамические анимации. Он охватывает иконки, длинные последовательности иллюстраций, научные диаграммы и динамические анимации, поддерживая задачи различного уровня сложности и предоставляя более глубокие иерархии с более богатыми атрибутами по сравнению с предыдущими наборами данных. На основе этого ресурса мы представляем SArena, сопутствующий бенчмарк с полным набором определений задач и стандартизированной оценкой, которая соответствует областям и спектру сложности, охватываемым SAgoge. Опираясь на эти основы, мы предлагаем InternSVG — унифицированную MLLM для понимания, редактирования и генерации SVG, использующую специальные токены для SVG, инициализацию вложений на основе субслов и двухэтапную стратегию обучения, которая переходит от коротких статических SVG к длинным последовательностям иллюстраций и сложным анимациям. Эта унифицированная формулировка способствует положительному трансферу и улучшает общую производительность. Эксперименты на SArena и предыдущих бенчмарках подтверждают, что InternSVG достигает значительных улучшений и стабильно превосходит ведущие открытые и проприетарные аналоги.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.