DPoser-X: Modelo de Difusión como Prior Robusto para la Pose Corporal Completa en 3D
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
August 1, 2025
Autores: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
cs.AI
Resumen
Presentamos DPoser-X, un modelo previo basado en difusión para poses humanas 3D de cuerpo completo. Construir un modelo previo versátil y robusto para poses humanas de cuerpo completo sigue siendo un desafío debido a la complejidad inherente de las poses articuladas humanas y la escasez de conjuntos de datos de alta calidad de poses de cuerpo completo. Para abordar estas limitaciones, introducimos un modelo de Difusión como previo de poses corporales (DPoser) y lo extendemos a DPoser-X para el modelado expresivo de poses humanas de cuerpo completo. Nuestro enfoque unifica diversas tareas centradas en poses como problemas inversos, resolviéndolos mediante muestreo de difusión variacional. Para mejorar el rendimiento en aplicaciones posteriores, introducimos un novedoso método de programación de pasos de tiempo truncado específicamente diseñado para las características de los datos de poses. También proponemos un mecanismo de entrenamiento enmascarado que combina eficazmente conjuntos de datos de cuerpo completo y específicos de partes, permitiendo que nuestro modelo capture interdependencias entre partes del cuerpo mientras evita el sobreajuste a acciones específicas. Experimentos extensos demuestran la robustez y versatilidad de DPoser-X en múltiples benchmarks para el modelado de poses corporales, de manos, rostro y cuerpo completo. Nuestro modelo supera consistentemente a las alternativas más avanzadas, estableciendo un nuevo estándar para el modelado previo de poses humanas de cuerpo completo.
English
We present DPoser-X, a diffusion-based prior model for 3D whole-body human
poses. Building a versatile and robust full-body human pose prior remains
challenging due to the inherent complexity of articulated human poses and the
scarcity of high-quality whole-body pose datasets. To address these
limitations, we introduce a Diffusion model as body Pose prior (DPoser) and
extend it to DPoser-X for expressive whole-body human pose modeling. Our
approach unifies various pose-centric tasks as inverse problems, solving them
through variational diffusion sampling. To enhance performance on downstream
applications, we introduce a novel truncated timestep scheduling method
specifically designed for pose data characteristics. We also propose a masked
training mechanism that effectively combines whole-body and part-specific
datasets, enabling our model to capture interdependencies between body parts
while avoiding overfitting to specific actions. Extensive experiments
demonstrate DPoser-X's robustness and versatility across multiple benchmarks
for body, hand, face, and full-body pose modeling. Our model consistently
outperforms state-of-the-art alternatives, establishing a new benchmark for
whole-body human pose prior modeling.