InternSVG: Hacia la Unificación de Tareas SVG con Modelos de Lenguaje Multimodales de Gran Escala

Resumen

La modelización general de SVG sigue siendo un desafío debido a la fragmentación de los conjuntos de datos, la transferibilidad limitada de los métodos entre tareas y la dificultad de manejar la complejidad estructural. En respuesta, aprovechamos las fuertes capacidades de transferencia y generalización de los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés) para lograr una modelización unificada para la comprensión, edición y generación de SVG. Presentamos la familia InternSVG, un conjunto integrado de datos, puntos de referencia y modelos. En su núcleo se encuentra SAgoge, el conjunto de datos multimodal más grande y completo para tareas de SVG, que abarca tanto gráficos estáticos como animaciones dinámicas. Cubre iconos, ilustraciones de secuencias largas, diagramas científicos y animaciones dinámicas, apoyando tareas de diversos niveles de dificultad y proporcionando jerarquías más profundas con atributos más ricos en comparación con conjuntos de datos anteriores. Basándonos en este recurso, introducimos SArena, un punto de referencia complementario con definiciones de tareas exhaustivas y evaluación estandarizada que se alinea con los dominios y el espectro de dificultad cubierto por SAgoge. Sobre estas bases, proponemos InternSVG, un MLLM unificado para la comprensión, edición y generación de SVG con tokens especiales específicos para SVG, inicialización de incrustaciones basada en subpalabras y una estrategia de entrenamiento en dos etapas que avanza desde SVG estáticos cortos hasta ilustraciones de secuencias largas y animaciones complejas. Esta formulación unificada induce una transferencia positiva y mejora el rendimiento general. Los experimentos en SArena y puntos de referencia previos confirman que InternSVG logra avances sustanciales y supera consistentemente a las principales alternativas abiertas y propietarias.

English

General SVG modeling remains challenging due to fragmented datasets, limited transferability of methods across tasks, and the difficulty of handling structural complexity. In response, we leverage the strong transfer and generalization capabilities of multimodal large language models (MLLMs) to achieve unified modeling for SVG understanding, editing, and generation. We present the InternSVG family, an integrated data-benchmark-model suite. At its core is SAgoge, the largest and most comprehensive multimodal dataset for SVG tasks, encompassing both static graphics and dynamic animations. It covers icons, long-sequence illustrations, scientific diagrams, and dynamic animations, supporting tasks of varied difficulty levels and providing deeper hierarchies with richer attributes compared to previous datasets. Based on this resource, we introduce SArena, a companion benchmark with comprehensive task definitions and standardized evaluation that aligns with the domains and difficulty spectrum covered by SAgoge. Building on these foundations, we propose InternSVG, a unified MLLM for SVG understanding, editing, and generation with SVG-specific special tokens, subword-based embedding initialization, and a two-stage training strategy that progresses from short static SVGs to long-sequence illustrations and complex animations. This unified formulation induces positive transfer and improves overall performance. Experiments on SArena and prior benchmark confirm that InternSVG achieves substantial gains and consistently outperforms leading open and proprietary counterparts.

InternSVG: Hacia la Unificación de Tareas SVG con Modelos de Lenguaje Multimodales de Gran Escala

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

Resumen

Support