DPoser-X : Modèle de diffusion comme a priori robuste pour la pose corporelle humaine 3D
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
August 1, 2025
papers.authors: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
cs.AI
papers.abstract
Nous présentons DPoser-X, un modèle de priorité basé sur la diffusion pour les poses humaines 3D du corps entier. La construction d'un modèle de priorité robuste et polyvalent pour les poses humaines complètes reste un défi en raison de la complexité inhérente des poses articulées humaines et de la rareté des ensembles de données de haute qualité sur les poses du corps entier. Pour surmonter ces limitations, nous introduisons un modèle de Diffusion comme priorité de pose corporelle (DPoser) et l'étendons à DPoser-X pour la modélisation expressive des poses humaines du corps entier. Notre approche unifie diverses tâches centrées sur les poses en tant que problèmes inverses, les résolvant par échantillonnage variationnel de diffusion. Pour améliorer les performances dans les applications en aval, nous introduisons une nouvelle méthode de planification des pas de temps tronqués, spécifiquement conçue pour les caractéristiques des données de pose. Nous proposons également un mécanisme d'entraînement masqué qui combine efficacement les ensembles de données du corps entier et spécifiques à des parties, permettant à notre modèle de capturer les interdépendances entre les parties du corps tout en évitant le surajustement à des actions spécifiques. Des expériences approfondies démontrent la robustesse et la polyvalence de DPoser-X sur plusieurs benchmarks pour la modélisation des poses du corps, des mains, du visage et du corps entier. Notre modèle surpasse systématiquement les alternatives de pointe, établissant un nouveau standard pour la modélisation des priorités de pose humaine du corps entier.
English
We present DPoser-X, a diffusion-based prior model for 3D whole-body human
poses. Building a versatile and robust full-body human pose prior remains
challenging due to the inherent complexity of articulated human poses and the
scarcity of high-quality whole-body pose datasets. To address these
limitations, we introduce a Diffusion model as body Pose prior (DPoser) and
extend it to DPoser-X for expressive whole-body human pose modeling. Our
approach unifies various pose-centric tasks as inverse problems, solving them
through variational diffusion sampling. To enhance performance on downstream
applications, we introduce a novel truncated timestep scheduling method
specifically designed for pose data characteristics. We also propose a masked
training mechanism that effectively combines whole-body and part-specific
datasets, enabling our model to capture interdependencies between body parts
while avoiding overfitting to specific actions. Extensive experiments
demonstrate DPoser-X's robustness and versatility across multiple benchmarks
for body, hand, face, and full-body pose modeling. Our model consistently
outperforms state-of-the-art alternatives, establishing a new benchmark for
whole-body human pose prior modeling.