**Stroke3D: Elevando traços 2D para modelos 3D articulados via modelos de difusão latente**
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
February 10, 2026
Autores: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang
cs.AI
Resumo
Os ativos 3D com rigging são fundamentais para deformação e animação 3D. No entanto, os métodos existentes de geração 3D enfrentam desafios na criação de geometria animável, enquanto as técnicas de rigging carecem de controle estrutural refinado sobre a criação do esqueleto. Para superar essas limitações, apresentamos o Stroke3D, uma nova estrutura que gera malhas com rigging diretamente a partir de entradas do utilizador: traços desenhados em 2D e uma descrição textual. A nossa abordagem pioneira consiste num pipeline de duas etapas que separa a geração em: 1) Geração Controlável do Esqueleto, onde empregamos o Skeletal Graph VAE (Sk-VAE) para codificar a estrutura de grafo do esqueleto num espaço latente, e o Skeletal Graph DiT (Sk-DiT) gera um *embedding* esquelético. O processo de geração é condicionado tanto pelo texto (para semântica) como pelos traços 2D (para controlo estrutural explícito), sendo que o descodificador do VAE reconstrói o esqueleto 3D final de alta qualidade; e 2) Síntese Aumentada de Malha via TextuRig e SKA-DPO, onde sintetizamos uma malha texturizada condicionada pelo esqueleto gerado. Para esta etapa, primeiro aprimoramos um modelo existente de esqueleto-para-malha, aumentando os seus dados de treino com o TextuRig: um conjunto de dados de malhas texturizadas e com rigging, legendadas e curadas a partir do Objaverse-XL. Adicionalmente, empregamos uma estratégia de otimização de preferências, o SKA-DPO, guiada por uma pontuação de alinhamento esqueleto-malha, para melhorar ainda mais a fidelidade geométrica. Em conjunto, a nossa estrutura permite um fluxo de trabalho mais intuitivo para criar conteúdo 3D pronto para animar. Até onde sabemos, o nosso trabalho é o primeiro a gerar malhas 3D com rigging condicionadas por traços 2D desenhados pelo utilizador. Experimentos extensivos demonstram que o Stroke3D produz esqueletos plausíveis e malhas de alta qualidade.
English
Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.