Stroke3D: Trasformazione di tratti 2D in modelli 3D riggati tramite modelli di diffusione latente

Abstract

Gli asset 3D riggati sono fondamentali per la deformazione e l'animazione 3D. Tuttavia, i metodi di generazione 3D esistenti affrontano sfide nella generazione di geometrie animabili, mentre le tecniche di rigging mancano di un controllo strutturale granulare sulla creazione dello scheletro. Per affrontare queste limitazioni, introduciamo Stroke3D, un framework innovativo che genera direttamente mesh riggati a partire da input utente: tratti disegnati in 2D e un prompt testuale descrittivo. Il nostro approccio pionieristico utilizza una pipeline a due stadi che separa la generazione in: 1) Generazione Controllabile dello Scheletro, dove impieghiamo il Skeletal Graph VAE (Sk-VAE) per codificare la struttura a grafo dello scheletro in uno spazio latente, in cui il Skeletal Graph DiT (Sk-DiT) genera un embedding scheletrico. Il processo di generazione è condizionato sia dal testo per la semantica che dai tratti 2D per il controllo strutturale esplicito, con il decoder del VAE che ricostruisce lo scheletro 3D finale di alta qualità; e 2) Sintesi Potenziata della Mesh tramite TextuRig e SKA-DPO, dove sintetizziamo una mesh texturizzata condizionata dallo scheletro generato. In questa fase, potenziamo prima un modello esistente di generazione mesh-da-scheletro arricchendo i suoi dati di addestramento con TextuRig: un dataset di mesh texturizzati e riggati con didascalie, curato a partire da Objaverse-XL. Inoltre, impieghiamo una strategia di ottimizzazione delle preferenze, SKA-DPO, guidata da un punteggio di allineamento scheletro-mesh, per migliorare ulteriormente la fedeltà geometrica. Insieme, il nostro framework abilita un workflow più intuitivo per creare contenuti 3D pronti per l'animazione. Per quanto a nostra conoscenza, il nostro lavoro è il primo a generare mesh 3D riggati condizionati da tratti 2D disegnati dall'utente. Esperimenti estensivi dimostrano che Stroke3D produce scheletri plausibili e mesh di alta qualità.

English

Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.

Stroke3D: Trasformazione di tratti 2D in modelli 3D riggati tramite modelli di diffusione latente

Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

Abstract

Support