InternSVG: Rumo à Unificação de Tarefas SVG com Modelos de Linguagem Multimodal de Grande Escala
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
Autores: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
Resumo
A modelagem geral de SVG continua desafiadora devido a conjuntos de dados fragmentados, transferibilidade limitada de métodos entre tarefas e a dificuldade de lidar com complexidade estrutural. Em resposta, aproveitamos as fortes capacidades de transferência e generalização de modelos de linguagem multimodal de grande escala (MLLMs) para alcançar uma modelagem unificada para compreensão, edição e geração de SVG. Apresentamos a família InternSVG, um conjunto integrado de dados, benchmarks e modelos. No seu núcleo está o SAgoge, o maior e mais abrangente conjunto de dados multimodal para tarefas de SVG, abrangendo tanto gráficos estáticos quanto animações dinâmicas. Ele cobre ícones, ilustrações de longa sequência, diagramas científicos e animações dinâmicas, suportando tarefas de diversos níveis de dificuldade e fornecendo hierarquias mais profundas com atributos mais ricos em comparação com conjuntos de dados anteriores. Com base nesse recurso, introduzimos o SArena, um benchmark complementar com definições abrangentes de tarefas e avaliação padronizada que se alinha com os domínios e o espectro de dificuldade cobertos pelo SAgoge. Com base nessas fundações, propomos o InternSVG, um MLLM unificado para compreensão, edição e geração de SVG com tokens especiais específicos para SVG, inicialização de embeddings baseada em subpalavras e uma estratégia de treinamento em duas etapas que progride de SVGs estáticos curtos para ilustrações de longa sequência e animações complexas. Essa formulação unificada induz transferência positiva e melhora o desempenho geral. Experimentos no SArena e em benchmarks anteriores confirmam que o InternSVG alcança ganhos substanciais e consistentemente supera as principais contrapartes abertas e proprietárias.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.