DPoser-X: Диффузионная модель как надежный априор для 3D позы всего тела человека
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
August 1, 2025
Авторы: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
cs.AI
Аннотация
Мы представляем DPoser-X, диффузионную модель-априори для 3D-поз всего тела человека. Создание универсального и надежного априори для поз всего тела остается сложной задачей из-за присущей сложности сочлененных поз человека и недостатка высококачественных наборов данных для поз всего тела. Чтобы устранить эти ограничения, мы представляем диффузионную модель как априори для поз (DPoser) и расширяем ее до DPoser-X для выразительного моделирования поз всего тела. Наш подход объединяет различные задачи, связанные с позами, как обратные задачи, решая их с помощью вариационного диффузионного сэмплирования. Для повышения производительности в прикладных задачах мы вводим новый метод усеченного планирования временных шагов, специально разработанный для характеристик данных о позах. Мы также предлагаем механизм маскированного обучения, который эффективно объединяет наборы данных для всего тела и отдельных частей, позволяя нашей модели улавливать взаимозависимости между частями тела, избегая при этом переобучения на конкретных действиях. Многочисленные эксперименты демонстрируют надежность и универсальность DPoser-X на множестве тестов для моделирования поз тела, рук, лица и всего тела. Наша модель стабильно превосходит современные аналоги, устанавливая новый стандарт для априорного моделирования поз всего тела человека.
English
We present DPoser-X, a diffusion-based prior model for 3D whole-body human
poses. Building a versatile and robust full-body human pose prior remains
challenging due to the inherent complexity of articulated human poses and the
scarcity of high-quality whole-body pose datasets. To address these
limitations, we introduce a Diffusion model as body Pose prior (DPoser) and
extend it to DPoser-X for expressive whole-body human pose modeling. Our
approach unifies various pose-centric tasks as inverse problems, solving them
through variational diffusion sampling. To enhance performance on downstream
applications, we introduce a novel truncated timestep scheduling method
specifically designed for pose data characteristics. We also propose a masked
training mechanism that effectively combines whole-body and part-specific
datasets, enabling our model to capture interdependencies between body parts
while avoiding overfitting to specific actions. Extensive experiments
demonstrate DPoser-X's robustness and versatility across multiple benchmarks
for body, hand, face, and full-body pose modeling. Our model consistently
outperforms state-of-the-art alternatives, establishing a new benchmark for
whole-body human pose prior modeling.