DPoser-X: Diffusionsmodell als robuste 3D-Ganzkörper-Posenschätzungsprior
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
August 1, 2025
papers.authors: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
cs.AI
papers.abstract
Wir präsentieren DPoser-X, ein diffusionsbasiertes Prior-Modell für 3D-Ganzkörper-Posen des Menschen. Die Entwicklung eines vielseitigen und robusten Prior-Modells für die gesamte menschliche Körperhaltung bleibt aufgrund der inhärenten Komplexität artikulierter menschlicher Posen und der Knappheit hochwertiger Ganzkörper-Posendatensätze eine Herausforderung. Um diese Einschränkungen zu adressieren, führen wir ein Diffusionsmodell als Körperposen-Prior (DPoser) ein und erweitern es zu DPoser-X für die expressive Modellierung von Ganzkörper-Posen. Unser Ansatz vereint verschiedene posenzentrierte Aufgaben als inverse Probleme und löst sie durch variationsbasierte Diffusionssammlung. Um die Leistung in nachgelagerten Anwendungen zu verbessern, führen wir eine neuartige Methode zur zeitgestuften Planung ein, die speziell auf die Eigenschaften von Posendaten zugeschnitten ist. Zudem schlagen wir einen maskierten Trainingsmechanismus vor, der Ganzkörper- und teilbezogene Datensätze effektiv kombiniert, wodurch unser Modell die Interdependenzen zwischen Körperteilen erfassen kann, ohne sich auf spezifische Bewegungen zu spezialisieren. Umfangreiche Experimente demonstrieren die Robustheit und Vielseitigkeit von DPoser-X über mehrere Benchmarks hinweg für die Modellierung von Körper-, Hand-, Gesichts- und Ganzkörper-Posen. Unser Modell übertrifft durchweg state-of-the-art Alternativen und setzt einen neuen Maßstab für die Prior-Modellierung von Ganzkörper-Posen des Menschen.
English
We present DPoser-X, a diffusion-based prior model for 3D whole-body human
poses. Building a versatile and robust full-body human pose prior remains
challenging due to the inherent complexity of articulated human poses and the
scarcity of high-quality whole-body pose datasets. To address these
limitations, we introduce a Diffusion model as body Pose prior (DPoser) and
extend it to DPoser-X for expressive whole-body human pose modeling. Our
approach unifies various pose-centric tasks as inverse problems, solving them
through variational diffusion sampling. To enhance performance on downstream
applications, we introduce a novel truncated timestep scheduling method
specifically designed for pose data characteristics. We also propose a masked
training mechanism that effectively combines whole-body and part-specific
datasets, enabling our model to capture interdependencies between body parts
while avoiding overfitting to specific actions. Extensive experiments
demonstrate DPoser-X's robustness and versatility across multiple benchmarks
for body, hand, face, and full-body pose modeling. Our model consistently
outperforms state-of-the-art alternatives, establishing a new benchmark for
whole-body human pose prior modeling.