Stable Part Diffusion 4D : Génération de vidéos multi-vues RGB et de parties cinématiques
Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
September 12, 2025
papers.authors: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI
papers.abstract
Nous présentons Stable Part Diffusion 4D (SP4D), un cadre pour générer des vidéos couplées en RGB et des vidéos de parties cinématiques à partir d'entrées monoculaires. Contrairement aux méthodes conventionnelles de segmentation de parties qui s'appuient sur des indices sémantiques basés sur l'apparence, SP4D apprend à produire des parties cinématiques - des composants structurels alignés avec l'articulation des objets et cohérents à travers les vues et le temps. SP4D adopte un modèle de diffusion à double branche qui synthétise conjointement des images RGB et les cartes de segmentation de parties correspondantes. Pour simplifier l'architecture et permettre de manière flexible différents nombres de parties, nous introduisons un schéma d'encodage spatial des couleurs qui mappe les masques de parties à des images continues de type RGB. Cet encodage permet à la branche de segmentation de partager le VAE latent de la branche RGB, tout en permettant de récupérer la segmentation de parties via un post-traitement simple. Un module de Fusion Bidirectionnelle par Diffusion (BiDiFuse) améliore la cohérence inter-branches, soutenu par une perte de contraste de cohérence des parties pour promouvoir l'alignement spatial et temporel des prédictions de parties. Nous démontrons que les cartes de parties 2D générées peuvent être élevées en 3D pour dériver des structures squelettiques et des poids de peau harmoniques avec peu d'ajustements manuels. Pour entraîner et évaluer SP4D, nous construisons KinematicParts20K, un ensemble de données soigneusement sélectionné de plus de 20 000 objets articulés choisis et traités à partir d'Objaverse XL (Deitke et al., 2023), chacun étant associé à des séquences vidéo RGB et de parties multi-vues. Les expériences montrent que SP4D généralise fortement à divers scénarios, y compris des vidéos du monde réel, des objets générés nouveaux et des poses articulées rares, produisant des sorties conscientes de la cinématique adaptées aux tâches d'animation et de mouvement en aval.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired
RGB and kinematic part videos from monocular inputs. Unlike conventional part
segmentation methods that rely on appearance-based semantic cues, SP4D learns
to produce kinematic parts - structural components aligned with object
articulation and consistent across views and time. SP4D adopts a dual-branch
diffusion model that jointly synthesizes RGB frames and corresponding part
segmentation maps. To simplify the architecture and flexibly enable different
part counts, we introduce a spatial color encoding scheme that maps part masks
to continuous RGB-like images. This encoding allows the segmentation branch to
share the latent VAE from the RGB branch, while enabling part segmentation to
be recovered via straightforward post-processing. A Bidirectional Diffusion
Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a
contrastive part consistency loss to promote spatial and temporal alignment of
part predictions. We demonstrate that the generated 2D part maps can be lifted
to 3D to derive skeletal structures and harmonic skinning weights with few
manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K,
a curated dataset of over 20K rigged objects selected and processed from
Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part
video sequences. Experiments show that SP4D generalizes strongly to diverse
scenarios, including real-world videos, novel generated objects, and rare
articulated poses, producing kinematic-aware outputs suitable for downstream
animation and motion-related tasks.