Реализация монохромного захвата полного тела в реальном времени в мировом пространстве с использованием последовательного обучения от прокси к движению
Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning
July 3, 2023
Авторы: Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Hongwei Yi, Shengping Zhang, Yebin Liu
cs.AI
Аннотация
Методы монохромного захвата движения, основанные на обучении, недавно продемонстрировали многообещающие результаты благодаря регрессии на основе данных. Однако из-за сложностей в сборе данных и проектировании сетей существующие решения по-прежнему сталкиваются с трудностями в достижении точного и реального времени захвата всего тела в мировом пространстве. В данной работе мы предлагаем последовательную схему обучения от прокси к движению, а также набор прокси-данных, включающий последовательности 2D-скелетов и 3D-вращательных движений в мировом пространстве. Такие прокси-данные позволяют нам построить обучаемую сеть с точным контролем всего тела, одновременно смягчая проблемы обобщения. Для более точных и физически правдоподобных прогнозов в нашей сети предложен модуль нейронного спуска движения с учетом контакта, который позволяет учитывать контакт стопы с землей и несоответствие движения прокси-наблюдениям. Кроме того, мы используем информацию о контексте тела и руки в нашей сети для более совместимого восстановления поз запястий с моделью всего тела. С предложенным решением на основе обучения мы демонстрируем первую систему монохромного захвата всего тела в реальном времени с правдоподобным контактом стопы с землей в мировом пространстве. Дополнительные видеорезультаты можно найти на странице нашего проекта: https://liuyebin.com/proxycap.
English
Learning-based approaches to monocular motion capture have recently shown
promising results by learning to regress in a data-driven manner. However, due
to the challenges in data collection and network designs, it remains
challenging for existing solutions to achieve real-time full-body capture while
being accurate in world space. In this work, we contribute a sequential
proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton
sequences and 3D rotational motions in world space. Such proxy data enables us
to build a learning-based network with accurate full-body supervision while
also mitigating the generalization issues. For more accurate and physically
plausible predictions, a contact-aware neural motion descent module is proposed
in our network so that it can be aware of foot-ground contact and motion
misalignment with the proxy observations. Additionally, we share the body-hand
context information in our network for more compatible wrist poses recovery
with the full-body model. With the proposed learning-based solution, we
demonstrate the first real-time monocular full-body capture system with
plausible foot-ground contact in world space. More video results can be found
at our project page: https://liuyebin.com/proxycap.