ChatPaper.aiChatPaper

안정적인 부품 확산 4D: 다중 시점 RGB 및 운동학적 부품 비디오 생성

Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

September 12, 2025
저자: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI

초록

우리는 단안 입력에서 짝을 이루는 RGB 및 운동학적 부위 비디오를 생성하기 위한 프레임워크인 Stable Part Diffusion 4D(SP4D)를 제안한다. 외관 기반의 의미론적 단서에 의존하는 기존의 부위 분할 방법과 달리, SP4D는 물체의 관절과 일치하며 시점과 시간에 걸쳐 일관된 구조적 구성 요소인 운동학적 부위를 생성하는 방법을 학습한다. SP4D는 RGB 프레임과 해당 부위 분할 맵을 동시에 합성하는 이중 분기 확산 모델을 채택한다. 아키텍처를 단순화하고 다양한 부위 수를 유연하게 지원하기 위해, 부위 마스크를 연속적인 RGB 유사 이미지로 매핑하는 공간 색상 인코딩 방식을 도입한다. 이 인코딩은 분할 분기가 RGB 분기의 잠재 VAE를 공유할 수 있게 하면서, 간단한 후처리를 통해 부위 분할을 복원할 수 있도록 한다. 양방향 확산 융합(BiDiFuse) 모듈은 부위 예측의 공간적 및 시간적 정렬을 촉진하기 위한 대조적 부위 일관성 손실을 지원하여 분기 간 일관성을 강화한다. 생성된 2D 부위 맵은 수동 조정 없이도 3D로 변환되어 골격 구조와 조화로운 스키닝 가중치를 도출할 수 있음을 보여준다. SP4D를 훈련하고 평가하기 위해, Objaverse XL(Deitke et al., 2023)에서 선별 및 처리된 20,000개 이상의 리깅된 객체로 구성된 KinematicParts20K 데이터셋을 구축하였다. 각 객체는 다중 시점 RGB 및 부위 비디오 시퀀스와 짝을 이루고 있다. 실험 결과, SP4D는 실제 비디오, 새롭게 생성된 객체, 희귀한 관절 자세를 포함한 다양한 시나리오에서 강력한 일반화 능력을 보이며, 다운스트림 애니메이션 및 모션 관련 작업에 적합한 운동학적 인식 출력을 생성한다.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired RGB and kinematic part videos from monocular inputs. Unlike conventional part segmentation methods that rely on appearance-based semantic cues, SP4D learns to produce kinematic parts - structural components aligned with object articulation and consistent across views and time. SP4D adopts a dual-branch diffusion model that jointly synthesizes RGB frames and corresponding part segmentation maps. To simplify the architecture and flexibly enable different part counts, we introduce a spatial color encoding scheme that maps part masks to continuous RGB-like images. This encoding allows the segmentation branch to share the latent VAE from the RGB branch, while enabling part segmentation to be recovered via straightforward post-processing. A Bidirectional Diffusion Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a contrastive part consistency loss to promote spatial and temporal alignment of part predictions. We demonstrate that the generated 2D part maps can be lifted to 3D to derive skeletal structures and harmonic skinning weights with few manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K, a curated dataset of over 20K rigged objects selected and processed from Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part video sequences. Experiments show that SP4D generalizes strongly to diverse scenarios, including real-world videos, novel generated objects, and rare articulated poses, producing kinematic-aware outputs suitable for downstream animation and motion-related tasks.
PDF22September 17, 2025