DPoser-X: Modelo de Difusão como Prior Robusto para Pose Corporal Humana em 3D

Resumo

Apresentamos o DPoser-X, um modelo baseado em difusão para priorização de poses humanas 3D de corpo inteiro. Construir um prior versátil e robusto para poses humanas de corpo inteiro continua sendo um desafio devido à complexidade inerente das poses articuladas humanas e à escassez de conjuntos de dados de alta qualidade para poses de corpo inteiro. Para abordar essas limitações, introduzimos um modelo de Difusão como prior de pose corporal (DPoser) e o estendemos para o DPoser-X, visando a modelagem expressiva de poses humanas de corpo inteiro. Nossa abordagem unifica várias tarefas centradas em pose como problemas inversos, resolvendo-os por meio de amostragem de difusão variacional. Para melhorar o desempenho em aplicações subsequentes, introduzimos um novo método de agendamento de passos de tempo truncado, especificamente projetado para as características dos dados de pose. Também propomos um mecanismo de treinamento mascarado que combina efetivamente conjuntos de dados de corpo inteiro e específicos de partes do corpo, permitindo que nosso modelo capture interdependências entre partes do corpo enquanto evita o sobreajuste a ações específicas. Experimentos extensivos demonstram a robustez e versatilidade do DPoser-X em vários benchmarks para modelagem de poses corporais, de mãos, de rosto e de corpo inteiro. Nosso modelo supera consistentemente as alternativas state-of-the-art, estabelecendo um novo padrão para a modelagem de prior de poses humanas de corpo inteiro.

English

We present DPoser-X, a diffusion-based prior model for 3D whole-body human poses. Building a versatile and robust full-body human pose prior remains challenging due to the inherent complexity of articulated human poses and the scarcity of high-quality whole-body pose datasets. To address these limitations, we introduce a Diffusion model as body Pose prior (DPoser) and extend it to DPoser-X for expressive whole-body human pose modeling. Our approach unifies various pose-centric tasks as inverse problems, solving them through variational diffusion sampling. To enhance performance on downstream applications, we introduce a novel truncated timestep scheduling method specifically designed for pose data characteristics. We also propose a masked training mechanism that effectively combines whole-body and part-specific datasets, enabling our model to capture interdependencies between body parts while avoiding overfitting to specific actions. Extensive experiments demonstrate DPoser-X's robustness and versatility across multiple benchmarks for body, hand, face, and full-body pose modeling. Our model consistently outperforms state-of-the-art alternatives, establishing a new benchmark for whole-body human pose prior modeling.

DPoser-X: Modelo de Difusão como Prior Robusto para Pose Corporal Humana em 3D

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Resumo

Support