ChatPaper.aiChatPaper

DuetSVG : Génération multimodale unifiée de SVG avec guidage visuel interne

DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance

December 11, 2025
papers.authors: Peiying Zhang, Nanxuan Zhao, Matthew Fisher, Yiran Xu, Jing Liao, Difan Liu
cs.AI

papers.abstract

Les approches récentes basées sur les modèles vision-langage (VLM) ont obtenu des résultats impressionnants en génération de SVG. Cependant, comme elles ne génèrent que du texte et manquent de signaux visuels pendant le décodage, elles éprouvent souvent des difficultés avec les sémantiques complexes et échouent à produire des SVG visuellement attrayants ou géométriquement cohérents. Nous présentons DuetSVG, un modèle multimodal unifié qui génère conjointement des tokens d'image et les tokens SVG correspondants de manière end-to-end. DuetSVG est entraîné sur des ensembles de données d'images et de SVG. Lors de l'inférence, nous appliquons une nouvelle stratégie de mise à l'échelle au moment du test qui exploite les prédictions visuelles natives du modèle comme guide pour améliorer la qualité du décodage SVG. Des expériences approfondies montrent que notre méthode surpasse les méthodes existantes, produisant des SVG fidèles visuellement, alignés sémantiquement et syntaxiquement propres dans un large éventail d'applications.
English
Recent vision-language model (VLM)-based approaches have achieved impressive results on SVG generation. However, because they generate only text and lack visual signals during decoding, they often struggle with complex semantics and fail to produce visually appealing or geometrically coherent SVGs. We introduce DuetSVG, a unified multimodal model that jointly generates image tokens and corresponding SVG tokens in an end-to-end manner. DuetSVG is trained on both image and SVG datasets. At inference, we apply a novel test-time scaling strategy that leverages the model's native visual predictions as guidance to improve SVG decoding quality. Extensive experiments show that our method outperforms existing methods, producing visually faithful, semantically aligned, and syntactically clean SVGs across a wide range of applications.
PDF01December 13, 2025