OmniSVG:統一的可縮放向量圖形生成模型OmniSVG: A Unified Scalable Vector Graphics Generation Model
可縮放向量圖形(SVG)因其解析度獨立性和可編輯性,在圖形設計領域被廣泛採用,成為一種重要的圖像格式。生成高質量SVG的研究持續吸引著AIGC社群中設計師和研究者的關注。然而,現有方法要么產生非結構化輸出且計算成本高昂,要么僅限於生成結構過於簡化的單色圖標。為生成高質量且複雜的SVG,我們提出了OmniSVG,這是一個利用預訓練視覺-語言模型(VLMs)進行端到端多模態SVG生成的統一框架。通過將SVG命令和座標參數化為離散標記,OmniSVG將結構邏輯與低層幾何解耦,實現高效訓練的同時保持複雜SVG結構的表達能力。為進一步推動SVG合成的發展,我們引入了MMSVG-2M,這是一個包含兩百萬個豐富註釋SVG資產的多模態數據集,並為條件式SVG生成任務制定了標準化評估協議。大量實驗表明,OmniSVG優於現有方法,並展示了其融入專業SVG設計工作流程的潛力。