InternSVG: Hacia la Unificación de Tareas SVG con Modelos de Lenguaje Multimodales de Gran Escala
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
Autores: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
Resumen
La modelización general de SVG sigue siendo un desafío debido a la fragmentación de los conjuntos de datos, la transferibilidad limitada de los métodos entre tareas y la dificultad de manejar la complejidad estructural. En respuesta, aprovechamos las fuertes capacidades de transferencia y generalización de los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés) para lograr una modelización unificada para la comprensión, edición y generación de SVG. Presentamos la familia InternSVG, un conjunto integrado de datos, puntos de referencia y modelos. En su núcleo se encuentra SAgoge, el conjunto de datos multimodal más grande y completo para tareas de SVG, que abarca tanto gráficos estáticos como animaciones dinámicas. Cubre iconos, ilustraciones de secuencias largas, diagramas científicos y animaciones dinámicas, apoyando tareas de diversos niveles de dificultad y proporcionando jerarquías más profundas con atributos más ricos en comparación con conjuntos de datos anteriores. Basándonos en este recurso, introducimos SArena, un punto de referencia complementario con definiciones de tareas exhaustivas y evaluación estandarizada que se alinea con los dominios y el espectro de dificultad cubierto por SAgoge. Sobre estas bases, proponemos InternSVG, un MLLM unificado para la comprensión, edición y generación de SVG con tokens especiales específicos para SVG, inicialización de incrustaciones basada en subpalabras y una estrategia de entrenamiento en dos etapas que avanza desde SVG estáticos cortos hasta ilustraciones de secuencias largas y animaciones complejas. Esta formulación unificada induce una transferencia positiva y mejora el rendimiento general. Los experimentos en SArena y puntos de referencia previos confirman que InternSVG logra avances sustanciales y supera consistentemente a las principales alternativas abiertas y propietarias.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.