InternSVG: 멀티모달 대형 언어 모델을 통한 통합 SVG 작업을 향하여
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
October 13, 2025
저자: Haomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang
cs.AI
초록
일반적인 SVG 모델링은 데이터셋의 파편화, 작업 간 방법론의 제한된 전이성, 그리고 구조적 복잡성 처리의 어려움으로 인해 여전히 도전적인 과제로 남아 있습니다. 이에 대응하여, 우리는 다중모드 대형 언어 모델(MLLMs)의 강력한 전이 및 일반화 능력을 활용하여 SVG 이해, 편집, 생성에 대한 통합 모델링을 달성합니다. 우리는 통합 데이터-벤치마크-모델 제품군인 InternSVG 패밀리를 소개합니다. 그 핵심은 SVG 작업을 위한 가장 크고 포괄적인 다중모드 데이터셋인 SAgoge로, 정적 그래픽과 동적 애니메이션을 모두 포함합니다. 이 데이터셋은 아이콘, 장시퀀스 일러스트레이션, 과학적 다이어그램, 동적 애니메이션을 아우르며, 다양한 난이도의 작업을 지원하고 이전 데이터셋에 비해 더 깊은 계층 구조와 더 풍부한 속성을 제공합니다. 이 리소스를 기반으로, 우리는 SAgoge가 다루는 도메인과 난이도 스펙트럼에 맞춘 포괄적인 작업 정의와 표준화된 평가를 제공하는 동반 벤치마크인 SArena를 소개합니다. 이러한 기반 위에, 우리는 SVG 이해, 편집, 생성을 위한 통합 MLLM인 InternSVG를 제안합니다. 이 모델은 SVG 특화 특수 토큰, 서브워드 기반 임베딩 초기화, 그리고 짧은 정적 SVG에서 장시퀀스 일러스트레이션과 복잡한 애니메이션으로 진행되는 두 단계 훈련 전략을 특징으로 합니다. 이 통합된 접근법은 긍정적인 전이를 유도하고 전반적인 성능을 향상시킵니다. SArena와 기존 벤치마크에 대한 실험 결과, InternSVG는 상당한 성능 향상을 달성하며 주요 오픈 및 독점 대안들을 일관되게 능가함을 확인했습니다.
English
General SVG modeling remains challenging due to fragmented datasets, limited
transferability of methods across tasks, and the difficulty of handling
structural complexity. In response, we leverage the strong transfer and
generalization capabilities of multimodal large language models (MLLMs) to
achieve unified modeling for SVG understanding, editing, and generation. We
present the InternSVG family, an integrated data-benchmark-model suite. At its
core is SAgoge, the largest and most comprehensive multimodal dataset for SVG
tasks, encompassing both static graphics and dynamic animations. It covers
icons, long-sequence illustrations, scientific diagrams, and dynamic
animations, supporting tasks of varied difficulty levels and providing deeper
hierarchies with richer attributes compared to previous datasets. Based on this
resource, we introduce SArena, a companion benchmark with comprehensive task
definitions and standardized evaluation that aligns with the domains and
difficulty spectrum covered by SAgoge. Building on these foundations, we
propose InternSVG, a unified MLLM for SVG understanding, editing, and
generation with SVG-specific special tokens, subword-based embedding
initialization, and a two-stage training strategy that progresses from short
static SVGs to long-sequence illustrations and complex animations. This unified
formulation induces positive transfer and improves overall performance.
Experiments on SArena and prior benchmark confirm that InternSVG achieves
substantial gains and consistently outperforms leading open and proprietary
counterparts.