Captura en tiempo real de cuerpo completo con visión monocular en espacio mundial mediante aprendizaje secuencial de proxy a movimiento
Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning
July 3, 2023
Autores: Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Hongwei Yi, Shengping Zhang, Yebin Liu
cs.AI
Resumen
Los enfoques basados en aprendizaje para la captura de movimiento monocular han mostrado recientemente resultados prometedores al aprender a realizar regresiones de manera impulsada por datos. Sin embargo, debido a los desafíos en la recopilación de datos y el diseño de redes, sigue siendo difícil para las soluciones existentes lograr una captura de cuerpo completo en tiempo real mientras se mantiene la precisión en el espacio mundial. En este trabajo, contribuimos con un esquema secuencial de aprendizaje de proxy a movimiento junto con un conjunto de datos proxy de secuencias de esqueletos 2D y movimientos rotacionales 3D en el espacio mundial. Dichos datos proxy nos permiten construir una red basada en aprendizaje con supervisión precisa de cuerpo completo, al mismo tiempo que mitigamos los problemas de generalización. Para predicciones más precisas y físicamente plausibles, se propone un módulo de descenso de movimiento neuronal consciente del contacto en nuestra red, de modo que pueda ser consciente del contacto pie-suelo y la desalineación del movimiento con las observaciones proxy. Además, compartimos la información de contexto cuerpo-mano en nuestra red para una recuperación más compatible de las poses de la muñeca con el modelo de cuerpo completo. Con la solución basada en aprendizaje propuesta, demostramos el primer sistema de captura de cuerpo completo monocular en tiempo real con un contacto pie-suelo plausible en el espacio mundial. Más resultados en video se pueden encontrar en nuestra página del proyecto: https://liuyebin.com/proxycap.
English
Learning-based approaches to monocular motion capture have recently shown
promising results by learning to regress in a data-driven manner. However, due
to the challenges in data collection and network designs, it remains
challenging for existing solutions to achieve real-time full-body capture while
being accurate in world space. In this work, we contribute a sequential
proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton
sequences and 3D rotational motions in world space. Such proxy data enables us
to build a learning-based network with accurate full-body supervision while
also mitigating the generalization issues. For more accurate and physically
plausible predictions, a contact-aware neural motion descent module is proposed
in our network so that it can be aware of foot-ground contact and motion
misalignment with the proxy observations. Additionally, we share the body-hand
context information in our network for more compatible wrist poses recovery
with the full-body model. With the proposed learning-based solution, we
demonstrate the first real-time monocular full-body capture system with
plausible foot-ground contact in world space. More video results can be found
at our project page: https://liuyebin.com/proxycap.