DPoser-X: Modello di Diffusione come Prior Robusto per la Posa Corporea Umana 3D

Abstract

Presentiamo DPoser-X, un modello basato su diffusione per la rappresentazione prioritaria di pose umane 3D complete. Costruire un modello versatile e robusto per la rappresentazione prioritaria di pose umane complete rimane una sfida a causa della complessità intrinseca delle pose articolate e della scarsità di dataset di alta qualità per pose complete. Per affrontare queste limitazioni, introduciamo un modello di diffusione come prior per le pose del corpo (DPoser) e lo estendiamo a DPoser-X per la modellazione espressiva di pose umane complete. Il nostro approccio unifica vari task centrati sulle pose come problemi inversi, risolvendoli attraverso il campionamento di diffusione variazionale. Per migliorare le prestazioni nelle applicazioni downstream, introduciamo un nuovo metodo di schedulazione dei tempi troncati, specificamente progettato per le caratteristiche dei dati di pose. Proponiamo inoltre un meccanismo di addestramento mascherato che combina efficacemente dataset completi e specifici per parti del corpo, consentendo al nostro modello di catturare le interdipendenze tra le parti del corpo evitando l'overfitting su azioni specifiche. Esperimenti estensivi dimostrano la robustezza e la versatilità di DPoser-X su molteplici benchmark per la modellazione di pose del corpo, delle mani, del viso e del corpo completo. Il nostro modello supera costantemente le alternative state-of-the-art, stabilendo un nuovo punto di riferimento per la modellazione prioritaria di pose umane complete.

English

We present DPoser-X, a diffusion-based prior model for 3D whole-body human poses. Building a versatile and robust full-body human pose prior remains challenging due to the inherent complexity of articulated human poses and the scarcity of high-quality whole-body pose datasets. To address these limitations, we introduce a Diffusion model as body Pose prior (DPoser) and extend it to DPoser-X for expressive whole-body human pose modeling. Our approach unifies various pose-centric tasks as inverse problems, solving them through variational diffusion sampling. To enhance performance on downstream applications, we introduce a novel truncated timestep scheduling method specifically designed for pose data characteristics. We also propose a masked training mechanism that effectively combines whole-body and part-specific datasets, enabling our model to capture interdependencies between body parts while avoiding overfitting to specific actions. Extensive experiments demonstrate DPoser-X's robustness and versatility across multiple benchmarks for body, hand, face, and full-body pose modeling. Our model consistently outperforms state-of-the-art alternatives, establishing a new benchmark for whole-body human pose prior modeling.

DPoser-X: Modello di Diffusione come Prior Robusto per la Posa Corporea Umana 3D

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Abstract

Support