DuetSVG: 내부 시각적 지도를 통한 통합 멀티모달 SVG 생성
DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance
December 11, 2025
저자: Peiying Zhang, Nanxuan Zhao, Matthew Fisher, Yiran Xu, Jing Liao, Difan Liu
cs.AI
초록
최근 비전-언어 모델(VLM) 기반 접근법들이 SVG 생성에서 인상적인 결과를 달성했습니다. 그러나 이러한 방법들은 디코딩 과정에서 텍스트만 생성하고 시각적 신호가 부족하기 때문에 복잡한 의미 구조를 처리하는 데 어려움을 겪으며, 시각적으로 매력적이거나 기하학적으로 일관된 SVG를 생성하지 못하는 경우가 많습니다. 본 연구에서는 이미지 토큰과 해당 SVG 토큰을 종단간 방식으로 동시에 생성하는 통합 멀티모달 모델인 DuetSVG를 소개합니다. DuetSVG는 이미지와 SVG 데이터셋을 모두 활용하여 학습됩니다. 추론 단계에서는 모델의 고유 시각 예측 결과를 SVG 디코딩 품질 향상을 위한 가이드로 활용하는 새로운 테스트 타임 스케일링 전략을 적용합니다. 광범위한 실험을 통해 우리 방법이 기존 방법들을 능가하며, 다양한 응용 분야에서 시각적으로 정확하고 의미론적으로 일관되며 구문적으로 깔끔한 SVG를 생성함을 입증했습니다.
English
Recent vision-language model (VLM)-based approaches have achieved impressive results on SVG generation. However, because they generate only text and lack visual signals during decoding, they often struggle with complex semantics and fail to produce visually appealing or geometrically coherent SVGs. We introduce DuetSVG, a unified multimodal model that jointly generates image tokens and corresponding SVG tokens in an end-to-end manner. DuetSVG is trained on both image and SVG datasets. At inference, we apply a novel test-time scaling strategy that leverages the model's native visual predictions as guidance to improve SVG decoding quality. Extensive experiments show that our method outperforms existing methods, producing visually faithful, semantically aligned, and syntactically clean SVGs across a wide range of applications.