ChatPaper.aiChatPaper

Stable Part Diffusion 4D: Generatie van Multi-View RGB en Kinematische Onderdelen Video's

Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

September 12, 2025
Auteurs: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI

Samenvatting

We presenteren Stable Part Diffusion 4D (SP4D), een raamwerk voor het genereren van gepaarde RGB- en kinematische onderdeelvideo's vanuit monoscopische invoer. In tegenstelling tot conventionele onderdeelsegmentatiemethoden die vertrouwen op op uiterlijk gebaseerde semantische aanwijzingen, leert SP4D kinematische onderdelen te produceren - structurele componenten die zijn uitgelijnd met objectarticulatie en consistent zijn over verschillende aanzichten en tijd. SP4D maakt gebruik van een dual-branch diffusiemodel dat gezamenlijk RGB-frames en bijbehorende onderdeelsegmentatiekaarten synthetiseert. Om de architectuur te vereenvoudigen en flexibel verschillende aantallen onderdelen mogelijk te maken, introduceren we een ruimtelijk kleurencoderingsschema dat onderdeelmaskers afbeeldt op continue RGB-achtige afbeeldingen. Deze codering stelt de segmentatietak in staat om de latente VAE van de RGB-tak te delen, terwijl onderdeelsegmentatie via eenvoudige nabewerking kan worden hersteld. Een Bidirectional Diffusion Fusion (BiDiFuse)-module verbetert de consistentie tussen de takken, ondersteund door een contrastief onderdeelconsistentieverlies om ruimtelijke en temporele uitlijning van onderdeelvoorspellingen te bevorderen. We tonen aan dat de gegenereerde 2D-onderdeelkaarten naar 3D kunnen worden getransformeerd om skeletstructuren en harmonische skinning-gewichten af te leiden met weinig handmatige aanpassingen. Om SP4D te trainen en evalueren, hebben we KinematicParts20K samengesteld, een gecureerde dataset van meer dan 20K gerigde objecten geselecteerd en verwerkt uit Objaverse XL (Deitke et al., 2023), elk gepaard met multi-view RGB- en onderdeelvideosequenties. Experimenten tonen aan dat SP4D sterk generaliseert naar diverse scenario's, waaronder real-world video's, nieuw gegenereerde objecten en zeldzame gearticuleerde poses, waarbij kinematisch bewuste uitvoer wordt geproduceerd die geschikt is voor downstream animatie- en beweginggerelateerde taken.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired RGB and kinematic part videos from monocular inputs. Unlike conventional part segmentation methods that rely on appearance-based semantic cues, SP4D learns to produce kinematic parts - structural components aligned with object articulation and consistent across views and time. SP4D adopts a dual-branch diffusion model that jointly synthesizes RGB frames and corresponding part segmentation maps. To simplify the architecture and flexibly enable different part counts, we introduce a spatial color encoding scheme that maps part masks to continuous RGB-like images. This encoding allows the segmentation branch to share the latent VAE from the RGB branch, while enabling part segmentation to be recovered via straightforward post-processing. A Bidirectional Diffusion Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a contrastive part consistency loss to promote spatial and temporal alignment of part predictions. We demonstrate that the generated 2D part maps can be lifted to 3D to derive skeletal structures and harmonic skinning weights with few manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K, a curated dataset of over 20K rigged objects selected and processed from Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part video sequences. Experiments show that SP4D generalizes strongly to diverse scenarios, including real-world videos, novel generated objects, and rare articulated poses, producing kinematic-aware outputs suitable for downstream animation and motion-related tasks.
PDF62September 19, 2025