Stroke3D: Преобразование 2D-штрихов в ригованные 3D-модели с помощью латентных диффузионных моделей
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
February 10, 2026
Авторы: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang
cs.AI
Аннотация
Анимированные 3D-ассеты являются основой для 3D-деформации и анимации. Однако существующие методы генерации 3D сталкиваются с трудностями в создании анимируемой геометрии, в то время как техники риггинга не обеспечивают детального структурного контроля над созданием скелета. Чтобы устранить эти ограничения, мы представляем Stroke3D — новый фреймворк, который напрямую генерирует ригнутые меши из пользовательских входных данных: 2D-набросков и текстового описания. Наш подход реализует двухэтапный конвейер, разделяющий генерацию на: 1) *Управляемую генерацию скелета*: мы используем Skeletal Graph VAE (Sk-VAE) для кодирования графовой структуры скелета в латентное пространство, где Skeletal Graph DiT (Sk-DiT) генерирует латентное представление скелета. Процесс генерации обусловлен как текстом (для семантики), так и 2D-штрихами (для явного структурного контроля), а декодер VAE восстанавливает итоговый высококачественный 3D-скелет; и 2) *Улучшенный синтез меша с помощью TextuRig и SKA-DPO*: затем мы синтезируем текстурированный меш, обусловленный сгенерированным скелетом. На этом этапе мы сначала улучшаем существующую модель "скелет-в-меш", расширяя её обучающие данные с помощью TextuRig — набора данных текстурированных и ригнутых мешей с описаниями, созданного на основе Objaverse-XL. Дополнительно мы применяем стратегию оптимизации предпочтений SKA-DPO, направляемую оценкой соответствия скелета и меша, для дальнейшего повышения геометрической точности. В совокупности наш фреймворк обеспечивает более интуитивный рабочий процесс для создания готовой к анимации 3D-графики. Насколько нам известно, наша работа является первой, которая генерирует ригнутые 3D-меши на основе пользовательских 2D-набросков. Многочисленные эксперименты демонстрируют, что Stroke3D производит правдоподобные скелеты и высококачественные меши.
English
Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.