DPoser-X : Modèle de diffusion comme a priori robuste pour la pose corporelle humaine 3D

Résumé

Nous présentons DPoser-X, un modèle de priorité basé sur la diffusion pour les poses humaines 3D du corps entier. La construction d'un modèle de priorité robuste et polyvalent pour les poses humaines complètes reste un défi en raison de la complexité inhérente des poses articulées humaines et de la rareté des ensembles de données de haute qualité sur les poses du corps entier. Pour surmonter ces limitations, nous introduisons un modèle de Diffusion comme priorité de pose corporelle (DPoser) et l'étendons à DPoser-X pour la modélisation expressive des poses humaines du corps entier. Notre approche unifie diverses tâches centrées sur les poses en tant que problèmes inverses, les résolvant par échantillonnage variationnel de diffusion. Pour améliorer les performances dans les applications en aval, nous introduisons une nouvelle méthode de planification des pas de temps tronqués, spécifiquement conçue pour les caractéristiques des données de pose. Nous proposons également un mécanisme d'entraînement masqué qui combine efficacement les ensembles de données du corps entier et spécifiques à des parties, permettant à notre modèle de capturer les interdépendances entre les parties du corps tout en évitant le surajustement à des actions spécifiques. Des expériences approfondies démontrent la robustesse et la polyvalence de DPoser-X sur plusieurs benchmarks pour la modélisation des poses du corps, des mains, du visage et du corps entier. Notre modèle surpasse systématiquement les alternatives de pointe, établissant un nouveau standard pour la modélisation des priorités de pose humaine du corps entier.

English

We present DPoser-X, a diffusion-based prior model for 3D whole-body human poses. Building a versatile and robust full-body human pose prior remains challenging due to the inherent complexity of articulated human poses and the scarcity of high-quality whole-body pose datasets. To address these limitations, we introduce a Diffusion model as body Pose prior (DPoser) and extend it to DPoser-X for expressive whole-body human pose modeling. Our approach unifies various pose-centric tasks as inverse problems, solving them through variational diffusion sampling. To enhance performance on downstream applications, we introduce a novel truncated timestep scheduling method specifically designed for pose data characteristics. We also propose a masked training mechanism that effectively combines whole-body and part-specific datasets, enabling our model to capture interdependencies between body parts while avoiding overfitting to specific actions. Extensive experiments demonstrate DPoser-X's robustness and versatility across multiple benchmarks for body, hand, face, and full-body pose modeling. Our model consistently outperforms state-of-the-art alternatives, establishing a new benchmark for whole-body human pose prior modeling.