ChatPaper.aiChatPaper

Stable Part Diffusion 4D: Geração de Vídeo de Partes RGB e Cinemáticas em Múltiplas Visões

Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

September 12, 2025
Autores: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI

Resumo

Apresentamos o Stable Part Diffusion 4D (SP4D), uma estrutura para gerar vídeos pareados de RGB e partes cinemáticas a partir de entradas monoculares. Diferente dos métodos convencionais de segmentação de partes que dependem de pistas semânticas baseadas em aparência, o SP4D aprende a produzir partes cinemáticas - componentes estruturais alinhados com a articulação do objeto e consistentes entre diferentes visões e ao longo do tempo. O SP4D adota um modelo de difusão de ramificação dupla que sintetiza conjuntamente quadros RGB e mapas de segmentação de partes correspondentes. Para simplificar a arquitetura e permitir flexivelmente diferentes contagens de partes, introduzimos um esquema de codificação de cores espacial que mapeia máscaras de partes para imagens contínuas semelhantes a RGB. Essa codificação permite que o ramo de segmentação compartilhe o VAE latente do ramo RGB, ao mesmo tempo em que possibilita a recuperação da segmentação de partes por meio de pós-processamento direto. Um módulo de Fusão de Difusão Bidirecional (BiDiFuse) melhora a consistência entre ramos, apoiado por uma função de perda de consistência de partes contrastiva para promover o alinhamento espacial e temporal das previsões de partes. Demonstramos que os mapas de partes 2D gerados podem ser elevados para 3D para derivar estruturas esqueléticas e pesos de skinning harmônicos com poucos ajustes manuais. Para treinar e avaliar o SP4D, construímos o KinematicParts20K, um conjunto de dados curado com mais de 20K objetos rigados selecionados e processados a partir do Objaverse XL (Deitke et al., 2023), cada um pareado com sequências de vídeo RGB e de partes multivisão. Experimentos mostram que o SP4D generaliza fortemente para diversos cenários, incluindo vídeos do mundo real, objetos gerados de forma inovadora e poses articuladas raras, produzindo saídas conscientes da cinemática adequadas para tarefas subsequentes de animação e movimento.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired RGB and kinematic part videos from monocular inputs. Unlike conventional part segmentation methods that rely on appearance-based semantic cues, SP4D learns to produce kinematic parts - structural components aligned with object articulation and consistent across views and time. SP4D adopts a dual-branch diffusion model that jointly synthesizes RGB frames and corresponding part segmentation maps. To simplify the architecture and flexibly enable different part counts, we introduce a spatial color encoding scheme that maps part masks to continuous RGB-like images. This encoding allows the segmentation branch to share the latent VAE from the RGB branch, while enabling part segmentation to be recovered via straightforward post-processing. A Bidirectional Diffusion Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a contrastive part consistency loss to promote spatial and temporal alignment of part predictions. We demonstrate that the generated 2D part maps can be lifted to 3D to derive skeletal structures and harmonic skinning weights with few manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K, a curated dataset of over 20K rigged objects selected and processed from Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part video sequences. Experiments show that SP4D generalizes strongly to diverse scenarios, including real-world videos, novel generated objects, and rare articulated poses, producing kinematic-aware outputs suitable for downstream animation and motion-related tasks.
PDF62September 19, 2025