DPoser-X: Modello di Diffusione come Prior Robusto per la Posa Corporea Umana 3D
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
August 1, 2025
Autori: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
cs.AI
Abstract
Presentiamo DPoser-X, un modello basato su diffusione per la rappresentazione prioritaria di pose umane 3D complete. Costruire un modello versatile e robusto per la rappresentazione prioritaria di pose umane complete rimane una sfida a causa della complessità intrinseca delle pose articolate e della scarsità di dataset di alta qualità per pose complete. Per affrontare queste limitazioni, introduciamo un modello di diffusione come prior per le pose del corpo (DPoser) e lo estendiamo a DPoser-X per la modellazione espressiva di pose umane complete. Il nostro approccio unifica vari task centrati sulle pose come problemi inversi, risolvendoli attraverso il campionamento di diffusione variazionale. Per migliorare le prestazioni nelle applicazioni downstream, introduciamo un nuovo metodo di schedulazione dei tempi troncati, specificamente progettato per le caratteristiche dei dati di pose. Proponiamo inoltre un meccanismo di addestramento mascherato che combina efficacemente dataset completi e specifici per parti del corpo, consentendo al nostro modello di catturare le interdipendenze tra le parti del corpo evitando l'overfitting su azioni specifiche. Esperimenti estensivi dimostrano la robustezza e la versatilità di DPoser-X su molteplici benchmark per la modellazione di pose del corpo, delle mani, del viso e del corpo completo. Il nostro modello supera costantemente le alternative state-of-the-art, stabilendo un nuovo punto di riferimento per la modellazione prioritaria di pose umane complete.
English
We present DPoser-X, a diffusion-based prior model for 3D whole-body human
poses. Building a versatile and robust full-body human pose prior remains
challenging due to the inherent complexity of articulated human poses and the
scarcity of high-quality whole-body pose datasets. To address these
limitations, we introduce a Diffusion model as body Pose prior (DPoser) and
extend it to DPoser-X for expressive whole-body human pose modeling. Our
approach unifies various pose-centric tasks as inverse problems, solving them
through variational diffusion sampling. To enhance performance on downstream
applications, we introduce a novel truncated timestep scheduling method
specifically designed for pose data characteristics. We also propose a masked
training mechanism that effectively combines whole-body and part-specific
datasets, enabling our model to capture interdependencies between body parts
while avoiding overfitting to specific actions. Extensive experiments
demonstrate DPoser-X's robustness and versatility across multiple benchmarks
for body, hand, face, and full-body pose modeling. Our model consistently
outperforms state-of-the-art alternatives, establishing a new benchmark for
whole-body human pose prior modeling.