Difusión Estable de Partes 4D: Generación de Vídeo de Partes RGB y Cinemáticas desde Múltiples Vistas
Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
September 12, 2025
Autores: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI
Resumen
Presentamos Stable Part Diffusion 4D (SP4D), un marco para generar videos emparejados de RGB y partes cinemáticas a partir de entradas monoculares. A diferencia de los métodos convencionales de segmentación de partes que dependen de señales semánticas basadas en apariencia, SP4D aprende a producir partes cinemáticas: componentes estructurales alineados con la articulación del objeto y consistentes a través de vistas y tiempo. SP4D adopta un modelo de difusión de doble rama que sintetiza conjuntamente fotogramas RGB y mapas de segmentación de partes correspondientes. Para simplificar la arquitectura y permitir de manera flexible diferentes recuentos de partes, introducimos un esquema de codificación de color espacial que mapea máscaras de partes a imágenes continuas similares a RGB. Esta codificación permite que la rama de segmentación comparta el VAE latente de la rama RGB, mientras posibilita la recuperación de la segmentación de partes mediante un post-procesamiento sencillo. Un módulo de Fusión de Difusión Bidireccional (BiDiFuse) mejora la consistencia entre ramas, respaldado por una pérdida de consistencia de partes contrastiva para promover la alineación espacial y temporal de las predicciones de partes. Demostramos que los mapas de partes 2D generados pueden elevarse a 3D para derivar estructuras esqueléticas y pesos de skinning armónico con pocos ajustes manuales. Para entrenar y evaluar SP4D, construimos KinematicParts20K, un conjunto de datos curado de más de 20K objetos articulados seleccionados y procesados de Objaverse XL (Deitke et al., 2023), cada uno emparejado con secuencias de video RGB y de partes de múltiples vistas. Los experimentos muestran que SP4D generaliza fuertemente a diversos escenarios, incluyendo videos del mundo real, objetos generados novedosos y poses articuladas raras, produciendo salidas conscientes de la cinemática adecuadas para tareas posteriores de animación y movimiento.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired
RGB and kinematic part videos from monocular inputs. Unlike conventional part
segmentation methods that rely on appearance-based semantic cues, SP4D learns
to produce kinematic parts - structural components aligned with object
articulation and consistent across views and time. SP4D adopts a dual-branch
diffusion model that jointly synthesizes RGB frames and corresponding part
segmentation maps. To simplify the architecture and flexibly enable different
part counts, we introduce a spatial color encoding scheme that maps part masks
to continuous RGB-like images. This encoding allows the segmentation branch to
share the latent VAE from the RGB branch, while enabling part segmentation to
be recovered via straightforward post-processing. A Bidirectional Diffusion
Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a
contrastive part consistency loss to promote spatial and temporal alignment of
part predictions. We demonstrate that the generated 2D part maps can be lifted
to 3D to derive skeletal structures and harmonic skinning weights with few
manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K,
a curated dataset of over 20K rigged objects selected and processed from
Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part
video sequences. Experiments show that SP4D generalizes strongly to diverse
scenarios, including real-world videos, novel generated objects, and rare
articulated poses, producing kinematic-aware outputs suitable for downstream
animation and motion-related tasks.