DPoser-X: Modelo de Difusión como Prior Robusto para la Pose Corporal Completa en 3D

Resumen

Presentamos DPoser-X, un modelo previo basado en difusión para poses humanas 3D de cuerpo completo. Construir un modelo previo versátil y robusto para poses humanas de cuerpo completo sigue siendo un desafío debido a la complejidad inherente de las poses articuladas humanas y la escasez de conjuntos de datos de alta calidad de poses de cuerpo completo. Para abordar estas limitaciones, introducimos un modelo de Difusión como previo de poses corporales (DPoser) y lo extendemos a DPoser-X para el modelado expresivo de poses humanas de cuerpo completo. Nuestro enfoque unifica diversas tareas centradas en poses como problemas inversos, resolviéndolos mediante muestreo de difusión variacional. Para mejorar el rendimiento en aplicaciones posteriores, introducimos un novedoso método de programación de pasos de tiempo truncado específicamente diseñado para las características de los datos de poses. También proponemos un mecanismo de entrenamiento enmascarado que combina eficazmente conjuntos de datos de cuerpo completo y específicos de partes, permitiendo que nuestro modelo capture interdependencias entre partes del cuerpo mientras evita el sobreajuste a acciones específicas. Experimentos extensos demuestran la robustez y versatilidad de DPoser-X en múltiples benchmarks para el modelado de poses corporales, de manos, rostro y cuerpo completo. Nuestro modelo supera consistentemente a las alternativas más avanzadas, estableciendo un nuevo estándar para el modelado previo de poses humanas de cuerpo completo.

English

We present DPoser-X, a diffusion-based prior model for 3D whole-body human poses. Building a versatile and robust full-body human pose prior remains challenging due to the inherent complexity of articulated human poses and the scarcity of high-quality whole-body pose datasets. To address these limitations, we introduce a Diffusion model as body Pose prior (DPoser) and extend it to DPoser-X for expressive whole-body human pose modeling. Our approach unifies various pose-centric tasks as inverse problems, solving them through variational diffusion sampling. To enhance performance on downstream applications, we introduce a novel truncated timestep scheduling method specifically designed for pose data characteristics. We also propose a masked training mechanism that effectively combines whole-body and part-specific datasets, enabling our model to capture interdependencies between body parts while avoiding overfitting to specific actions. Extensive experiments demonstrate DPoser-X's robustness and versatility across multiple benchmarks for body, hand, face, and full-body pose modeling. Our model consistently outperforms state-of-the-art alternatives, establishing a new benchmark for whole-body human pose prior modeling.

DPoser-X: Modelo de Difusión como Prior Robusto para la Pose Corporal Completa en 3D

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Resumen

Support