Stroke3D: Überführung von 2D-Strichen in geriggte 3D-Modelle mittels latenter Diffusionsmodelle
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
February 10, 2026
papers.authors: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang
cs.AI
papers.abstract
Rigged-3D-Assets sind grundlegend für 3D-Deformation und -Animation. Allerdings stehen bestehende 3D-Generierungsmethoden vor Herausforderungen bei der Erzeugung animierbarer Geometrie, während Rigging-Techniken eine feinkörnige strukturelle Kontrolle über die Skeletterstellung vermissen lassen. Um diese Einschränkungen zu adressieren, stellen wir Stroke3D vor, ein neuartiges Framework, das direkt rigged Meshes aus Benutzereingaben erzeugt: 2D-Zeichenstrichen und einem beschreibenden Text-Prompt. Unser Ansatz etabliert eine Zwei-Stufen-Pipeline, die die Generierung unterteilt in: 1) Kontrollierbare Skelettgenerierung, bei der wir das Skeletal Graph VAE (Sk-VAE) einsetzen, um die Graphstruktur des Skeletts in einen latenten Raum zu kodieren, wo der Skeletal Graph DiT (Sk-DiT) eine Skelett-Einbettung generiert. Der Generierungsprozess wird sowohl durch den Text für die Semantik als auch durch die 2D-Striche für explizite strukturelle Kontrolle konditioniert, wobei der Decoder des VAE das finale hochwertige 3D-Skelett rekonstruiert; und 2) Verbesserte Mesh-Synthese via TextuRig und SKA-DPO, bei der wir anschließend ein texturiertes Mesh, konditioniert auf das generierte Skelett, synthetisieren. Für diese Stufe verbessern wir zunächst ein bestehendes Skelett-zu-Mesh-Modell, indem wir seine Trainingsdaten mit TextuRig erweitern: einem Datensatz von texturierten und geriggten Meshes mit Beschriftungen, der aus Objaverse-XL kuratiert wurde. Zusätzlich setzen wir eine Präferenzoptimierungsstrategie, SKA-DPO, ein, die durch einen Skelett-Mesh-Alignment-Score gesteuert wird, um die geometrische Treue weiter zu verbessern. Zusammen ermöglicht unser Framework einen intuitiveren Workflow für die Erstellung von animationsfertigen 3D-Inhalten. Nach unserem Wissenstand ist unsere Arbeit die erste, die rigged 3D-Meshes konditioniert auf benutzergezeichnete 2D-Striche generiert. Umfangreiche Experimente zeigen, dass Stroke3D plausible Skelette und hochwertige Meshes erzeugt.
English
Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.