DuetSVG: 内部視覚的ガイダンスによる統合型マルチモーダルSVG生成
DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance
December 11, 2025
著者: Peiying Zhang, Nanxuan Zhao, Matthew Fisher, Yiran Xu, Jing Liao, Difan Liu
cs.AI
要旨
近年、ビジョン言語モデル(VLM)に基づくアプローチは、SVG生成において印象的な成果を上げている。しかし、これらの手法はテキストのみを生成し、デコーディング過程で視覚信号を欠くため、複雑な意味構造の処理に苦戦し、視覚的に魅力的かつ幾何学的に一貫性のあるSVGの生成に失敗することが多い。本論文では、画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデル、DuetSVGを提案する。DuetSVGは画像データセットとSVGデータセットの両方で学習される。推論時には、モデルが内在的に持つ視覚的予測をガイダンスとして活用し、SVGデコーディングの品質を向上させる新しいテスト時スケーリング戦略を適用する。大規模な実験により、本手法が既存手法を凌駕し、多様なアプリケーション領域において、視覚的に忠実で、意味的に整合性が取れ、構文的にクリーンなSVGを生成できることを実証する。
English
Recent vision-language model (VLM)-based approaches have achieved impressive results on SVG generation. However, because they generate only text and lack visual signals during decoding, they often struggle with complex semantics and fail to produce visually appealing or geometrically coherent SVGs. We introduce DuetSVG, a unified multimodal model that jointly generates image tokens and corresponding SVG tokens in an end-to-end manner. DuetSVG is trained on both image and SVG datasets. At inference, we apply a novel test-time scaling strategy that leverages the model's native visual predictions as guidance to improve SVG decoding quality. Extensive experiments show that our method outperforms existing methods, producing visually faithful, semantically aligned, and syntactically clean SVGs across a wide range of applications.