ChatPaper.aiChatPaper

Stroke3D: Elevación de trazos 2D a modelos 3D articulados mediante modelos de difusión latente

Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

February 10, 2026
Autores: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang
cs.AI

Resumen

Los activos 3D con rigging son fundamentales para la deformación y animación 3D. Sin embargo, los métodos existentes de generación 3D enfrentan desafíos para generar geometría animable, mientras que las técnicas de rigging carecen de un control estructural detallado sobre la creación del esqueleto. Para abordar estas limitaciones, presentamos Stroke3D, un marco novedoso que genera mallas con rigging directamente a partir de entradas del usuario: trazos dibujados en 2D y un texto descriptivo. Nuestro enfoque pionero utiliza un proceso de dos etapas que separa la generación en: 1) Generación de Esqueleto Controlable, donde empleamos el VAE de Grafo Esquelético (Sk-VAE) para codificar la estructura de grafo del esqueleto en un espacio latente, y el DiT de Grafo Esquelético (Sk-DiT) genera un *embedding* esquelético. El proceso de generación se condiciona tanto por el texto para la semántica como por los trazos 2D para un control estructural explícito, y el decodificador del VAE reconstruye el esqueleto 3D final de alta calidad; y 2) Síntesis de Malla Mejorada mediante TextuRig y SKA-DPO, donde sintetizamos una malla texturizada condicionada por el esqueleto generado. Para esta etapa, primero mejoramos un modelo existente de esqueleto-a-malla aumentando sus datos de entrenamiento con TextuRig: un conjunto de datos de mallas texturizadas y con rigging con descripciones, curado a partir de Objaverse-XL. Adicionalmente, empleamos una estrategia de optimización de preferencias, SKA-DPO, guiada por una puntuación de alineación esqueleto-malla, para mejorar aún más la fidelidad geométrica. En conjunto, nuestro marco permite un flujo de trabajo más intuitivo para crear contenido 3D listo para animar. Hasta donde sabemos, nuestro trabajo es el primero en generar mallas 3D con rigging condicionadas por trazos 2D dibujados por el usuario. Experimentos exhaustivos demuestran que Stroke3D produce esqueletos plausibles y mallas de alta calidad.
English
Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.
PDF82February 13, 2026