DPoser-X: Diffusiemodel als robuuste 3D prior voor het hele lichaam bij menselijke pose-estimatie

Samenvatting

We presenteren DPoser-X, een op diffusie gebaseerd prior model voor 3D volledige lichaamsmenselijke poses. Het bouwen van een veelzijdig en robuust prior model voor volledige lichaamsmenselijke poses blijft een uitdaging vanwege de inherente complexiteit van gearticuleerde menselijke poses en de schaarste aan hoogwaardige datasets voor volledige lichaamsposes. Om deze beperkingen aan te pakken, introduceren we een diffusiemodel als lichaams-pose-prior (DPoser) en breiden we dit uit naar DPoser-X voor expressieve modellering van volledige lichaamsmenselijke poses. Onze aanpak verenigt verschillende pose-gerelateerde taken als inverse problemen en lost deze op via variatie-diffusie-steekproeven. Om de prestaties bij downstream-toepassingen te verbeteren, introduceren we een nieuwe afgekapte tijdsstap-schedulingsmethode die specifiek is ontworpen voor de kenmerken van posedata. We stellen ook een gemaskerd trainingsmechanisme voor dat effectief volledige lichaams- en deel-specifieke datasets combineert, waardoor ons model de onderlinge afhankelijkheden tussen lichaamsdelen kan vastleggen zonder te overfitten op specifieke acties. Uitgebreide experimenten tonen de robuustheid en veelzijdigheid van DPoser-X aan over meerdere benchmarks voor lichaams-, hand-, gezichts- en volledige lichaams-pose-modellering. Ons model presteert consistent beter dan state-of-the-art alternatieven en stelt een nieuwe standaard voor prior modellering van volledige lichaamsmenselijke poses.

English

We present DPoser-X, a diffusion-based prior model for 3D whole-body human poses. Building a versatile and robust full-body human pose prior remains challenging due to the inherent complexity of articulated human poses and the scarcity of high-quality whole-body pose datasets. To address these limitations, we introduce a Diffusion model as body Pose prior (DPoser) and extend it to DPoser-X for expressive whole-body human pose modeling. Our approach unifies various pose-centric tasks as inverse problems, solving them through variational diffusion sampling. To enhance performance on downstream applications, we introduce a novel truncated timestep scheduling method specifically designed for pose data characteristics. We also propose a masked training mechanism that effectively combines whole-body and part-specific datasets, enabling our model to capture interdependencies between body parts while avoiding overfitting to specific actions. Extensive experiments demonstrate DPoser-X's robustness and versatility across multiple benchmarks for body, hand, face, and full-body pose modeling. Our model consistently outperforms state-of-the-art alternatives, establishing a new benchmark for whole-body human pose prior modeling.

DPoser-X: Diffusiemodel als robuuste 3D prior voor het hele lichaam bij menselijke pose-estimatie

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Samenvatting

Support