Реализация монохромного захвата полного тела в реальном времени в мировом пространстве с использованием последовательного обучения от прокси к движению

Аннотация

Методы монохромного захвата движения, основанные на обучении, недавно продемонстрировали многообещающие результаты благодаря регрессии на основе данных. Однако из-за сложностей в сборе данных и проектировании сетей существующие решения по-прежнему сталкиваются с трудностями в достижении точного и реального времени захвата всего тела в мировом пространстве. В данной работе мы предлагаем последовательную схему обучения от прокси к движению, а также набор прокси-данных, включающий последовательности 2D-скелетов и 3D-вращательных движений в мировом пространстве. Такие прокси-данные позволяют нам построить обучаемую сеть с точным контролем всего тела, одновременно смягчая проблемы обобщения. Для более точных и физически правдоподобных прогнозов в нашей сети предложен модуль нейронного спуска движения с учетом контакта, который позволяет учитывать контакт стопы с землей и несоответствие движения прокси-наблюдениям. Кроме того, мы используем информацию о контексте тела и руки в нашей сети для более совместимого восстановления поз запястий с моделью всего тела. С предложенным решением на основе обучения мы демонстрируем первую систему монохромного захвата всего тела в реальном времени с правдоподобным контактом стопы с землей в мировом пространстве. Дополнительные видеорезультаты можно найти на странице нашего проекта: https://liuyebin.com/proxycap.

English

Learning-based approaches to monocular motion capture have recently shown promising results by learning to regress in a data-driven manner. However, due to the challenges in data collection and network designs, it remains challenging for existing solutions to achieve real-time full-body capture while being accurate in world space. In this work, we contribute a sequential proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton sequences and 3D rotational motions in world space. Such proxy data enables us to build a learning-based network with accurate full-body supervision while also mitigating the generalization issues. For more accurate and physically plausible predictions, a contact-aware neural motion descent module is proposed in our network so that it can be aware of foot-ground contact and motion misalignment with the proxy observations. Additionally, we share the body-hand context information in our network for more compatible wrist poses recovery with the full-body model. With the proposed learning-based solution, we demonstrate the first real-time monocular full-body capture system with plausible foot-ground contact in world space. More video results can be found at our project page: https://liuyebin.com/proxycap.

Реализация монохромного захвата полного тела в реальном времени в мировом пространстве с использованием последовательного обучения от прокси к движению

Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning

Аннотация

Support