Stroke3D : Transformation de traits 2D en modèles 3D articulés via des modèles de diffusion latente
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
February 10, 2026
papers.authors: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang
cs.AI
papers.abstract
Les ressources 3D articulées sont fondamentales pour la déformation et l'animation 3D. Cependant, les méthodes de génération 3D existantes rencontrent des difficultés à produire une géométrie animable, tandis que les techniques de rigging manquent de contrôle structurel granulaire sur la création du squelette. Pour pallier ces limitations, nous présentons Stroke3D, un nouveau cadre de travail qui génère directement des maillages articulés à partir de saisies utilisateur : des traits dessinés en 2D et une invite textuelle descriptive. Notre approche innove avec un pipeline en deux étapes qui sépare la génération en : 1) Génération de squelette contrôlable, nous utilisons le Skeletal Graph VAE (Sk-VAE) pour encoder la structure graphique du squelette dans un espace latent, où le Skeletal Graph DiT (Sk-DiT) génère un plongement squelettique. Le processus de génération est conditionné à la fois par le texte pour la sémantique et par les traits 2D pour un contrôle structurel explicite, le décodeur du VAE reconstruisant le squelette 3D final de haute qualité ; et 2) Synthèse de maillage améliorée via TextuRig et SKA-DPO, où nous synthétisons ensuite un maillage texturé conditionné par le squelette généré. Pour cette étape, nous améliorons d'abord un modèle existant de squelette-vers-maillage en enrichissant ses données d'entraînement avec TextuRig : un ensemble de données de maillages texturés et articulés avec légendes, constitué à partir d'Objaverse-XL. De plus, nous employons une stratégie d'optimisation des préférences, SKA-DPO, guidée par un score d'alignement squelette-maillage, pour further améliorer la fidélité géométrique. Ensemble, notre cadre de travail permet un workflow plus intuitif pour créer du contenu 3D prêt à animer. À notre connaissance, notre travail est le premier à générer des maillages 3D articulés conditionnés par des traits 2D dessinés par l'utilisateur. Des expériences approfondies démontrent que Stroke3D produit des squelettes plausibles et des maillages de haute qualité.
English
Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.