DPoser-X: Diffusiemodel als robuuste 3D prior voor het hele lichaam bij menselijke pose-estimatie
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
August 1, 2025
Auteurs: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
cs.AI
Samenvatting
We presenteren DPoser-X, een op diffusie gebaseerd prior model voor 3D volledige lichaamsmenselijke poses. Het bouwen van een veelzijdig en robuust prior model voor volledige lichaamsmenselijke poses blijft een uitdaging vanwege de inherente complexiteit van gearticuleerde menselijke poses en de schaarste aan hoogwaardige datasets voor volledige lichaamsposes. Om deze beperkingen aan te pakken, introduceren we een diffusiemodel als lichaams-pose-prior (DPoser) en breiden we dit uit naar DPoser-X voor expressieve modellering van volledige lichaamsmenselijke poses. Onze aanpak verenigt verschillende pose-gerelateerde taken als inverse problemen en lost deze op via variatie-diffusie-steekproeven. Om de prestaties bij downstream-toepassingen te verbeteren, introduceren we een nieuwe afgekapte tijdsstap-schedulingsmethode die specifiek is ontworpen voor de kenmerken van posedata. We stellen ook een gemaskerd trainingsmechanisme voor dat effectief volledige lichaams- en deel-specifieke datasets combineert, waardoor ons model de onderlinge afhankelijkheden tussen lichaamsdelen kan vastleggen zonder te overfitten op specifieke acties. Uitgebreide experimenten tonen de robuustheid en veelzijdigheid van DPoser-X aan over meerdere benchmarks voor lichaams-, hand-, gezichts- en volledige lichaams-pose-modellering. Ons model presteert consistent beter dan state-of-the-art alternatieven en stelt een nieuwe standaard voor prior modellering van volledige lichaamsmenselijke poses.
English
We present DPoser-X, a diffusion-based prior model for 3D whole-body human
poses. Building a versatile and robust full-body human pose prior remains
challenging due to the inherent complexity of articulated human poses and the
scarcity of high-quality whole-body pose datasets. To address these
limitations, we introduce a Diffusion model as body Pose prior (DPoser) and
extend it to DPoser-X for expressive whole-body human pose modeling. Our
approach unifies various pose-centric tasks as inverse problems, solving them
through variational diffusion sampling. To enhance performance on downstream
applications, we introduce a novel truncated timestep scheduling method
specifically designed for pose data characteristics. We also propose a masked
training mechanism that effectively combines whole-body and part-specific
datasets, enabling our model to capture interdependencies between body parts
while avoiding overfitting to specific actions. Extensive experiments
demonstrate DPoser-X's robustness and versatility across multiple benchmarks
for body, hand, face, and full-body pose modeling. Our model consistently
outperforms state-of-the-art alternatives, establishing a new benchmark for
whole-body human pose prior modeling.