Stroke3D: 潜在拡散モデルによる2Dストロークからリグ付き3Dモデルへの変換
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
February 10, 2026
著者: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang
cs.AI
要旨
リグ付き3Dアセットは、3D変形とアニメーションの基盤となる。しかし、既存の3D生成手法はアニメーション可能な形状の生成に課題を抱えており、リギング技術は骨格作成における細かい構造制御を欠いている。これらの限界に対処するため、我々はStroke3Dを提案する。これはユーザー入力(2Dで描画されたストロークと記述的なテキストプロンプト)から直接リグ付きメッシュを生成する新しいフレームワークである。本手法は、生成プロセスを以下2段階に分離した画期的なパイプラインを採用する。(1) 制御可能な骨格生成: Skeletal Graph VAE (Sk-VAE) を用いて骨格のグラフ構造を潜在空間に符号化し、Skeletal Graph DiT (Sk-DiT) が骨格埋め込みを生成する。生成プロセスは、意味情報としてのテキストと、明示的な構造制御のための2Dストロークの両方で条件付けられ、VAEのデコーダが最終的な高品質な3D骨格を復元する。(2) TextuRig と SKA-DPO による拡張メッシュ合成: 生成された骨格を条件としてテクスチャ付きメッシュを合成する。この段階では、まず既存の骨格-メッシュ変換モデルを拡張する。具体的には、Objaverse-XLから精選された、キャプション付きのテクスチャ・リグ付きメッシュデータセットであるTextuRigを用いて学習データを増強する。さらに、骨格-メッシュ整合性スコアに基づく選好最適化戦略SKA-DPOを採用し、形状の忠実度をさらに向上させる。これらを統合した本フレームワークは、アニメーション準備が整った3Dコンテンツ作成のための、より直感的なワークフローを実現する。我々の知る限り、ユーザー描画の2Dストロークを条件としてリグ付き3Dメッシュを生成する研究は本研究が初めてである。大規模な実験により、Stroke3Dが妥当な骨格と高品質なメッシュを生成することを実証した。
English
Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.