Stroke3D: Het optillen van 2D schetsen naar gerigde 3D-modellen via latente diffusiemodellen

Samenvatting

Geriegarde 3D-assets zijn fundamenteel voor 3D-deformatie en -animatie. Bestaande 3D-generatiemethoden hebben echter moeite met het genereren van animeerbare geometrie, terwijl rigging-technieken geen fijnmazige structurele controle over het maken van skeletten bieden. Om deze beperkingen aan te pakken, introduceren wij Stroke3D, een nieuw framework dat direct gerigde meshes genereert vanuit gebruikersinputs: 2D-getekende lijnen en een beschrijvende tekstprompt. Onze aanleg pionier een tweefasige pijplijn die de generatie opsplitst in: 1) Controleerbare Skeletgeneratie, waarbij we de Skeletal Graph VAE (Sk-VAE) gebruiken om de grafiekstructuur van het skelet te coderen in een latente ruimte, waar de Skeletal Graph DiT (Sk-DiT) een skelet-embedding genereert. Het generatieproces wordt gestuurd door zowel de tekst voor de semantiek als de 2D-lijnen voor expliciete structurele controle, waarbij de decoder van de VAE het uiteindelijke hoogwaardige 3D-skelet reconstrueert; en 2) Verbeterde Mesh-synthese via TextuRig en SKA-DPO, waarbij we vervolgens een getextureerde mesh synthetiseren op basis van het gegenereerde skelet. Voor deze fase verbeteren we eerst een bestaand skelet-naar-mesh-model door de trainingsdata aan te vullen met TextuRig: een dataset van getextureerde en gerigde meshes met bijschriften, samengesteld uit Objaverse-XL. Daarnaast gebruiken we een voorkeursoptimalisatiestrategie, SKA-DPO, geleid door een skelet-mesh-uitlijningsscore, om de geometrische trouw verder te verbeteren. Samen stelt ons framework een meer intuïtieve workflow in staat voor het creëren van kant-en-klare, animeerbare 3D-inhoud. Voor zover ons bekend is ons werk de eerste dat gerigde 3D-meshes genereert op basis van door de gebruiker getekende 2D-lijnen. Uitgebreide experimenten tonen aan dat Stroke3D geloofwaardige skeletten en hoogwaardige meshes produceert.

English

Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.

Stroke3D: Het optillen van 2D schetsen naar gerigde 3D-modellen via latente diffusiemodellen

Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

Samenvatting

Support