ChatPaper.aiChatPaper

Stable Part Diffusion 4D: Генерация многовидовых RGB-видео и видео с кинематическими частями

Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

September 12, 2025
Авторы: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
cs.AI

Аннотация

Мы представляем Stable Part Diffusion 4D (SP4D) — фреймворк для генерации парных RGB и кинематических сегментационных видео на основе моноокулярных входных данных. В отличие от традиционных методов сегментации частей, которые полагаются на семантические признаки, основанные на внешнем виде, SP4D обучается создавать кинематические части — структурные компоненты, выровненные по артикуляции объекта и согласованные между видами и временем. SP4D использует двухветвевую диффузионную модель, которая совместно синтезирует RGB-кадры и соответствующие карты сегментации частей. Для упрощения архитектуры и гибкого управления количеством частей мы вводим схему пространственного цветового кодирования, которая отображает маски частей в непрерывные RGB-подобные изображения. Это кодирование позволяет ветви сегментации использовать общий латентный VAE из RGB-ветви, при этом восстановление сегментации частей осуществляется с помощью простой постобработки. Модуль Bidirectional Diffusion Fusion (BiDiFuse) улучшает согласованность между ветвями, поддерживаемый контрастным loss-функцией согласованности частей для обеспечения пространственного и временного выравнивания предсказаний частей. Мы показываем, что сгенерированные 2D-карты частей могут быть преобразованы в 3D для получения скелетных структур и весов гармонической скиннинга с минимальными ручными корректировками. Для обучения и оценки SP4D мы создали KinematicParts20K — тщательно отобранный набор данных, содержащий более 20K риггированных объектов, выбранных и обработанных из Objaverse XL (Deitke et al., 2023), каждый из которых сопровождается многовидовыми RGB и сегментационными видео-последовательностями. Эксперименты показывают, что SP4D демонстрирует высокую обобщаемость для различных сценариев, включая реальные видео, новые сгенерированные объекты и редкие артикулированные позы, создавая кинематически осознанные выходные данные, подходящие для задач анимации и работы с движением.
English
We present Stable Part Diffusion 4D (SP4D), a framework for generating paired RGB and kinematic part videos from monocular inputs. Unlike conventional part segmentation methods that rely on appearance-based semantic cues, SP4D learns to produce kinematic parts - structural components aligned with object articulation and consistent across views and time. SP4D adopts a dual-branch diffusion model that jointly synthesizes RGB frames and corresponding part segmentation maps. To simplify the architecture and flexibly enable different part counts, we introduce a spatial color encoding scheme that maps part masks to continuous RGB-like images. This encoding allows the segmentation branch to share the latent VAE from the RGB branch, while enabling part segmentation to be recovered via straightforward post-processing. A Bidirectional Diffusion Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a contrastive part consistency loss to promote spatial and temporal alignment of part predictions. We demonstrate that the generated 2D part maps can be lifted to 3D to derive skeletal structures and harmonic skinning weights with few manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K, a curated dataset of over 20K rigged objects selected and processed from Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part video sequences. Experiments show that SP4D generalizes strongly to diverse scenarios, including real-world videos, novel generated objects, and rare articulated poses, producing kinematic-aware outputs suitable for downstream animation and motion-related tasks.
PDF22September 17, 2025