ChatPaper.aiChatPaper

Реализация монохромного захвата полного тела в реальном времени в мировом пространстве с использованием последовательного обучения от прокси к движению

Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning

July 3, 2023
Авторы: Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Hongwei Yi, Shengping Zhang, Yebin Liu
cs.AI

Аннотация

Методы монохромного захвата движения, основанные на обучении, недавно продемонстрировали многообещающие результаты благодаря регрессии на основе данных. Однако из-за сложностей в сборе данных и проектировании сетей существующие решения по-прежнему сталкиваются с трудностями в достижении точного и реального времени захвата всего тела в мировом пространстве. В данной работе мы предлагаем последовательную схему обучения от прокси к движению, а также набор прокси-данных, включающий последовательности 2D-скелетов и 3D-вращательных движений в мировом пространстве. Такие прокси-данные позволяют нам построить обучаемую сеть с точным контролем всего тела, одновременно смягчая проблемы обобщения. Для более точных и физически правдоподобных прогнозов в нашей сети предложен модуль нейронного спуска движения с учетом контакта, который позволяет учитывать контакт стопы с землей и несоответствие движения прокси-наблюдениям. Кроме того, мы используем информацию о контексте тела и руки в нашей сети для более совместимого восстановления поз запястий с моделью всего тела. С предложенным решением на основе обучения мы демонстрируем первую систему монохромного захвата всего тела в реальном времени с правдоподобным контактом стопы с землей в мировом пространстве. Дополнительные видеорезультаты можно найти на странице нашего проекта: https://liuyebin.com/proxycap.
English
Learning-based approaches to monocular motion capture have recently shown promising results by learning to regress in a data-driven manner. However, due to the challenges in data collection and network designs, it remains challenging for existing solutions to achieve real-time full-body capture while being accurate in world space. In this work, we contribute a sequential proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton sequences and 3D rotational motions in world space. Such proxy data enables us to build a learning-based network with accurate full-body supervision while also mitigating the generalization issues. For more accurate and physically plausible predictions, a contact-aware neural motion descent module is proposed in our network so that it can be aware of foot-ground contact and motion misalignment with the proxy observations. Additionally, we share the body-hand context information in our network for more compatible wrist poses recovery with the full-body model. With the proposed learning-based solution, we demonstrate the first real-time monocular full-body capture system with plausible foot-ground contact in world space. More video results can be found at our project page: https://liuyebin.com/proxycap.
PDF90December 15, 2024