DPoser-X: Modelo de Difusão como Prior Robusto para Pose Corporal Humana em 3D
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
August 1, 2025
Autores: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
cs.AI
Resumo
Apresentamos o DPoser-X, um modelo baseado em difusão para priorização de poses humanas 3D de corpo inteiro. Construir um prior versátil e robusto para poses humanas de corpo inteiro continua sendo um desafio devido à complexidade inerente das poses articuladas humanas e à escassez de conjuntos de dados de alta qualidade para poses de corpo inteiro. Para abordar essas limitações, introduzimos um modelo de Difusão como prior de pose corporal (DPoser) e o estendemos para o DPoser-X, visando a modelagem expressiva de poses humanas de corpo inteiro. Nossa abordagem unifica várias tarefas centradas em pose como problemas inversos, resolvendo-os por meio de amostragem de difusão variacional. Para melhorar o desempenho em aplicações subsequentes, introduzimos um novo método de agendamento de passos de tempo truncado, especificamente projetado para as características dos dados de pose. Também propomos um mecanismo de treinamento mascarado que combina efetivamente conjuntos de dados de corpo inteiro e específicos de partes do corpo, permitindo que nosso modelo capture interdependências entre partes do corpo enquanto evita o sobreajuste a ações específicas. Experimentos extensivos demonstram a robustez e versatilidade do DPoser-X em vários benchmarks para modelagem de poses corporais, de mãos, de rosto e de corpo inteiro. Nosso modelo supera consistentemente as alternativas state-of-the-art, estabelecendo um novo padrão para a modelagem de prior de poses humanas de corpo inteiro.
English
We present DPoser-X, a diffusion-based prior model for 3D whole-body human
poses. Building a versatile and robust full-body human pose prior remains
challenging due to the inherent complexity of articulated human poses and the
scarcity of high-quality whole-body pose datasets. To address these
limitations, we introduce a Diffusion model as body Pose prior (DPoser) and
extend it to DPoser-X for expressive whole-body human pose modeling. Our
approach unifies various pose-centric tasks as inverse problems, solving them
through variational diffusion sampling. To enhance performance on downstream
applications, we introduce a novel truncated timestep scheduling method
specifically designed for pose data characteristics. We also propose a masked
training mechanism that effectively combines whole-body and part-specific
datasets, enabling our model to capture interdependencies between body parts
while avoiding overfitting to specific actions. Extensive experiments
demonstrate DPoser-X's robustness and versatility across multiple benchmarks
for body, hand, face, and full-body pose modeling. Our model consistently
outperforms state-of-the-art alternatives, establishing a new benchmark for
whole-body human pose prior modeling.