Stable Part Diffusion 4D: Generazione di Video Multi-Vista RGB e Parti Cinematiche
Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
September 12, 2025
Autori: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI
Abstract
Presentiamo Stable Part Diffusion 4D (SP4D), un framework per la generazione di video accoppiati RGB e di parti cinematiche a partire da input monoculari. A differenza dei metodi convenzionali di segmentazione delle parti che si basano su indizi semantici legati all'aspetto, SP4D apprende a produrre parti cinematiche - componenti strutturali allineate con l'articolazione dell'oggetto e coerenti tra diverse viste e nel tempo. SP4D adotta un modello di diffusione a doppio ramo che sintetizza congiuntamente frame RGB e mappe di segmentazione delle parti corrispondenti. Per semplificare l'architettura e abilitare flessibilmente diversi conteggi di parti, introduciamo uno schema di codifica spaziale del colore che mappa le maschere delle parti a immagini continue simili a RGB. Questa codifica consente al ramo di segmentazione di condividere il VAE latente con il ramo RGB, permettendo al contempo di recuperare la segmentazione delle parti attraverso una semplice post-elaborazione. Un modulo di Fusione Diffusione Bidirezionale (BiDiFuse) migliora la coerenza tra i rami, supportato da una funzione di perdita di coerenza delle parti contrastiva per promuovere l'allineamento spaziale e temporale delle previsioni delle parti. Dimostriamo che le mappe 2D delle parti generate possono essere elevate a 3D per derivare strutture scheletriche e pesi di skinning armonici con pochi aggiustamenti manuali. Per addestrare e valutare SP4D, abbiamo costruito KinematicParts20K, un dataset curato di oltre 20K oggetti rigati selezionati e processati da Objaverse XL (Deitke et al., 2023), ciascuno accoppiato con sequenze video RGB e di parti multi-vista. Gli esperimenti mostrano che SP4D generalizza efficacemente a scenari diversi, inclusi video del mondo reale, oggetti generati nuovi e pose articolate rare, producendo output cinematicamente consapevoli adatti per compiti di animazione e movimento a valle.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired
RGB and kinematic part videos from monocular inputs. Unlike conventional part
segmentation methods that rely on appearance-based semantic cues, SP4D learns
to produce kinematic parts - structural components aligned with object
articulation and consistent across views and time. SP4D adopts a dual-branch
diffusion model that jointly synthesizes RGB frames and corresponding part
segmentation maps. To simplify the architecture and flexibly enable different
part counts, we introduce a spatial color encoding scheme that maps part masks
to continuous RGB-like images. This encoding allows the segmentation branch to
share the latent VAE from the RGB branch, while enabling part segmentation to
be recovered via straightforward post-processing. A Bidirectional Diffusion
Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a
contrastive part consistency loss to promote spatial and temporal alignment of
part predictions. We demonstrate that the generated 2D part maps can be lifted
to 3D to derive skeletal structures and harmonic skinning weights with few
manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K,
a curated dataset of over 20K rigged objects selected and processed from
Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part
video sequences. Experiments show that SP4D generalizes strongly to diverse
scenarios, including real-world videos, novel generated objects, and rare
articulated poses, producing kinematic-aware outputs suitable for downstream
animation and motion-related tasks.