LayerTracer: 拡散Transformerを介した認知に合わせた層状SVG合成
LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer
February 3, 2025
著者: Yiren Song, Danze Chen, Mike Zheng Shou
cs.AI
要旨
認知に合った層状SVGの生成は、既存の手法が過度に単純化された単一層の出力または最適化による形状の冗長性のいずれかに偏る傾向があるため、依然として課題が残っています。本研究では、LayerTracerという拡散トランスフォーマーに基づくフレームワークを提案し、新しいデータセットからデザイナーの層状SVG作成プロセスを学習することで、このギャップを埋めることを目指します。当該手法は、2つの段階で操作されます。まず、テキスト条件付きのDiTが、人間のデザインワークフローをシミュレートする多段階のラスタ化された構築設計図を生成します。次に、層ごとのベクトル化とパスの重複排除により、クリーンで編集可能なSVGが生成されます。画像のベクトル化においては、参照画像を潜在トークンにエンコードする条件付き拡散メカニズムを導入し、階層的再構築をガイドしながら構造の完全性を保持します。幅広い実験により、LayerTracerは、生成品質と編集可能性の両方において、最適化ベースおよびニューラルベースラインに対して優れた性能を発揮し、AIによって生成されたベクトルを専門家のデザイン認知に効果的に整合させます。
English
Generating cognitive-aligned layered SVGs remains challenging due to existing
methods' tendencies toward either oversimplified single-layer outputs or
optimization-induced shape redundancies. We propose LayerTracer, a diffusion
transformer based framework that bridges this gap by learning designers'
layered SVG creation processes from a novel dataset of sequential design
operations. Our approach operates in two phases: First, a text-conditioned DiT
generates multi-phase rasterized construction blueprints that simulate human
design workflows. Second, layer-wise vectorization with path deduplication
produces clean, editable SVGs. For image vectorization, we introduce a
conditional diffusion mechanism that encodes reference images into latent
tokens, guiding hierarchical reconstruction while preserving structural
integrity. Extensive experiments demonstrate LayerTracer's superior performance
against optimization-based and neural baselines in both generation quality and
editability, effectively aligning AI-generated vectors with professional design
cognition.Summary
AI-Generated Summary