ChatPaper.aiChatPaper

Stable Part Diffusion 4D: Generierung von Multi-View-RGB- und kinematischen Teilen-Videos

Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

September 12, 2025
papers.authors: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI

papers.abstract

Wir stellen Stable Part Diffusion 4D (SP4D) vor, ein Framework zur Generierung von gepaarten RGB- und kinematischen Teilvideos aus monokularen Eingaben. Im Gegensatz zu herkömmlichen Methoden zur Teilesegmentierung, die auf erscheinungsbasierten semantischen Hinweisen beruhen, lernt SP4D, kinematische Teile zu erzeugen – strukturelle Komponenten, die mit der Objektartikulation ausgerichtet und über Ansichten und Zeit hinweg konsistent sind. SP4D verwendet ein Dual-Branch-Diffusionsmodell, das RGB-Bilder und entsprechende Teilesegmentierungskarten gemeinsam synthetisiert. Um die Architektur zu vereinfachen und flexibel unterschiedliche Teilanzahlen zu ermöglichen, führen wir ein räumliches Farbkodierungsschema ein, das Teilmasken auf kontinuierliche, RGB-ähnliche Bilder abbildet. Diese Kodierung ermöglicht es dem Segmentierungszweig, das latente VAE des RGB-Zweigs zu teilen, während die Teilesegmentierung durch einfache Nachbearbeitung wiederhergestellt werden kann. Ein Bidirectional Diffusion Fusion (BiDiFuse)-Modul verbessert die konsistente Übereinstimmung zwischen den Zweigen, unterstützt durch einen kontrastiven Teilkonsistenzverlust, um die räumliche und zeitliche Ausrichtung der Teilvorhersagen zu fördern. Wir zeigen, dass die generierten 2D-Teilkarten in 3D gehoben werden können, um Skelettstrukturen und harmonische Skinning-Gewichte mit wenigen manuellen Anpassungen abzuleiten. Um SP4D zu trainieren und zu evaluieren, erstellen wir KinematicParts20K, einen kuratierten Datensatz von über 20.000 geriggten Objekten, die aus Objaverse XL (Deitke et al., 2023) ausgewählt und verarbeitet wurden, jeweils gepaart mit Multi-View-RGB- und Teilvideosequenzen. Experimente zeigen, dass SP4D stark auf verschiedene Szenarien verallgemeinert, einschließlich realer Videos, neu generierter Objekte und seltener artikulierter Posen, und kinematikbewusste Ausgaben erzeugt, die sich für nachgelagerte Animations- und bewegungsbezogene Aufgaben eignen.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired RGB and kinematic part videos from monocular inputs. Unlike conventional part segmentation methods that rely on appearance-based semantic cues, SP4D learns to produce kinematic parts - structural components aligned with object articulation and consistent across views and time. SP4D adopts a dual-branch diffusion model that jointly synthesizes RGB frames and corresponding part segmentation maps. To simplify the architecture and flexibly enable different part counts, we introduce a spatial color encoding scheme that maps part masks to continuous RGB-like images. This encoding allows the segmentation branch to share the latent VAE from the RGB branch, while enabling part segmentation to be recovered via straightforward post-processing. A Bidirectional Diffusion Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a contrastive part consistency loss to promote spatial and temporal alignment of part predictions. We demonstrate that the generated 2D part maps can be lifted to 3D to derive skeletal structures and harmonic skinning weights with few manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K, a curated dataset of over 20K rigged objects selected and processed from Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part video sequences. Experiments show that SP4D generalizes strongly to diverse scenarios, including real-world videos, novel generated objects, and rare articulated poses, producing kinematic-aware outputs suitable for downstream animation and motion-related tasks.
PDF22September 17, 2025