ChatPaper.aiChatPaper

Stroke3D: 잠재 확산 모델을 통한 2D 스트로크의 관절형 3D 모델 변환

Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

February 10, 2026
저자: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang
cs.AI

초록

리깅된 3D 애셋은 3D 변형 및 애니메이션의 기초입니다. 그러나 기존 3D 생성 방법은 애니메이션 가능한 기하구조 생성에 어려움을 겪는 반면, 리깅 기술은 골격 생성에 대한 세밀한 구조적 제어가 부족합니다. 이러한 한계를 해결하기 위해 우리는 사용자 입력(2D로 그린 스트로크와 설명적 텍스트 프롬프트)으로부터 직접 리깅된 메시를 생성하는 새로운 프레임워크인 Stroke3D를 소개합니다. 우리의 접근 방식은 생성을 두 단계로 분리하는 이중 단계 파이프라인을 선구적으로 제시합니다: 1) 제어 가능한 골격 생성: 우리는 Skeletal Graph VAE(Sk-VAE)를 사용하여 골격의 그래프 구조를 잠재 공간에 인코딩하고, Skeletal Graph DiT(Sk-DiT)가 골격 임베딩을 생성합니다. 이 생성 과정은 의미를 위한 텍스트와 명시적 구조 제어를 위한 2D 스트로크 모두에 의해 조건화되며, VAE의 디코더는 최종적인 고품질 3D 골격을 재구성합니다. 2) TextuRig와 SKA-DPO를 통한 향상된 메시 합성: 그런 다음 생성된 골격을 조건으로 텍스처가 적용된 메시를 합성합니다. 이 단계를 위해 우리는 먼저 기존의 골격-메시 변환 모델을 향상시키기 위해, Objaverse-XL에서 선별된 캡션이 포함된 텍스처 및 리깅 메시 데이터셋인 TextuRig로 해당 모델의 학습 데이터를 증강합니다. 추가적으로, 우리는 골격-메시 정렬 점수를 기반으로 한 선호도 최적화 전략인 SKA-DPO를 사용하여 기하학적 정확도를 더욱 향상시킵니다. 이를 통해 우리의 프레임워크는 애니메이션 준비가 완료된 3D 콘텐츠를 생성하는 보다 직관적인 워크플로우를 가능하게 합니다. 우리가 알고 있는 한, 우리의 연구는 사용자가 그린 2D 스트로크를 조건으로 리깅된 3D 메시를 생성하는 최초의 사례입니다. 광범위한 실험을 통해 Stroke3D가 타당한 골격과 고품질 메시를 생성함을 입증합니다.
English
Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.
PDF82February 13, 2026