Captura en tiempo real de cuerpo completo con visión monocular en espacio mundial mediante aprendizaje secuencial de proxy a movimiento

Resumen

Los enfoques basados en aprendizaje para la captura de movimiento monocular han mostrado recientemente resultados prometedores al aprender a realizar regresiones de manera impulsada por datos. Sin embargo, debido a los desafíos en la recopilación de datos y el diseño de redes, sigue siendo difícil para las soluciones existentes lograr una captura de cuerpo completo en tiempo real mientras se mantiene la precisión en el espacio mundial. En este trabajo, contribuimos con un esquema secuencial de aprendizaje de proxy a movimiento junto con un conjunto de datos proxy de secuencias de esqueletos 2D y movimientos rotacionales 3D en el espacio mundial. Dichos datos proxy nos permiten construir una red basada en aprendizaje con supervisión precisa de cuerpo completo, al mismo tiempo que mitigamos los problemas de generalización. Para predicciones más precisas y físicamente plausibles, se propone un módulo de descenso de movimiento neuronal consciente del contacto en nuestra red, de modo que pueda ser consciente del contacto pie-suelo y la desalineación del movimiento con las observaciones proxy. Además, compartimos la información de contexto cuerpo-mano en nuestra red para una recuperación más compatible de las poses de la muñeca con el modelo de cuerpo completo. Con la solución basada en aprendizaje propuesta, demostramos el primer sistema de captura de cuerpo completo monocular en tiempo real con un contacto pie-suelo plausible en el espacio mundial. Más resultados en video se pueden encontrar en nuestra página del proyecto: https://liuyebin.com/proxycap.

English

Learning-based approaches to monocular motion capture have recently shown promising results by learning to regress in a data-driven manner. However, due to the challenges in data collection and network designs, it remains challenging for existing solutions to achieve real-time full-body capture while being accurate in world space. In this work, we contribute a sequential proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton sequences and 3D rotational motions in world space. Such proxy data enables us to build a learning-based network with accurate full-body supervision while also mitigating the generalization issues. For more accurate and physically plausible predictions, a contact-aware neural motion descent module is proposed in our network so that it can be aware of foot-ground contact and motion misalignment with the proxy observations. Additionally, we share the body-hand context information in our network for more compatible wrist poses recovery with the full-body model. With the proposed learning-based solution, we demonstrate the first real-time monocular full-body capture system with plausible foot-ground contact in world space. More video results can be found at our project page: https://liuyebin.com/proxycap.

Captura en tiempo real de cuerpo completo con visión monocular en espacio mundial mediante aprendizaje secuencial de proxy a movimiento

Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning

Resumen

Support