DPoser-X: Диффузионная модель как надежный априор для 3D позы всего тела человека

Аннотация

Мы представляем DPoser-X, диффузионную модель-априори для 3D-поз всего тела человека. Создание универсального и надежного априори для поз всего тела остается сложной задачей из-за присущей сложности сочлененных поз человека и недостатка высококачественных наборов данных для поз всего тела. Чтобы устранить эти ограничения, мы представляем диффузионную модель как априори для поз (DPoser) и расширяем ее до DPoser-X для выразительного моделирования поз всего тела. Наш подход объединяет различные задачи, связанные с позами, как обратные задачи, решая их с помощью вариационного диффузионного сэмплирования. Для повышения производительности в прикладных задачах мы вводим новый метод усеченного планирования временных шагов, специально разработанный для характеристик данных о позах. Мы также предлагаем механизм маскированного обучения, который эффективно объединяет наборы данных для всего тела и отдельных частей, позволяя нашей модели улавливать взаимозависимости между частями тела, избегая при этом переобучения на конкретных действиях. Многочисленные эксперименты демонстрируют надежность и универсальность DPoser-X на множестве тестов для моделирования поз тела, рук, лица и всего тела. Наша модель стабильно превосходит современные аналоги, устанавливая новый стандарт для априорного моделирования поз всего тела человека.

English

We present DPoser-X, a diffusion-based prior model for 3D whole-body human poses. Building a versatile and robust full-body human pose prior remains challenging due to the inherent complexity of articulated human poses and the scarcity of high-quality whole-body pose datasets. To address these limitations, we introduce a Diffusion model as body Pose prior (DPoser) and extend it to DPoser-X for expressive whole-body human pose modeling. Our approach unifies various pose-centric tasks as inverse problems, solving them through variational diffusion sampling. To enhance performance on downstream applications, we introduce a novel truncated timestep scheduling method specifically designed for pose data characteristics. We also propose a masked training mechanism that effectively combines whole-body and part-specific datasets, enabling our model to capture interdependencies between body parts while avoiding overfitting to specific actions. Extensive experiments demonstrate DPoser-X's robustness and versatility across multiple benchmarks for body, hand, face, and full-body pose modeling. Our model consistently outperforms state-of-the-art alternatives, establishing a new benchmark for whole-body human pose prior modeling.

DPoser-X: Диффузионная модель как надежный априор для 3D позы всего тела человека

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Аннотация

Support