Captura Monocular em Tempo Real do Corpo Inteiro no Espaço Mundial por meio de Aprendizado Sequencial de Proxy para Movimento

Resumo

Abordagens baseadas em aprendizado para captura de movimento monocular têm mostrado recentemente resultados promissores ao aprender a regredir de maneira orientada por dados. No entanto, devido aos desafios na coleta de dados e no design das redes, ainda é difícil para as soluções existentes alcançar a captura em tempo real de todo o corpo com precisão no espaço mundial. Neste trabalho, contribuímos com um esquema sequencial de aprendizado de proxy para movimento, juntamente com um conjunto de dados proxy de sequências de esqueletos 2D e movimentos rotacionais 3D no espaço mundial. Esses dados proxy nos permitem construir uma rede baseada em aprendizado com supervisão precisa de todo o corpo, ao mesmo tempo em que mitigamos os problemas de generalização. Para previsões mais precisas e fisicamente plausíveis, propomos um módulo neural de descida de movimento consciente de contato em nossa rede, para que ela possa estar ciente do contato pé-chão e do desalinhamento de movimento com as observações proxy. Além disso, compartilhamos as informações de contexto corpo-mão em nossa rede para uma recuperação mais compatível das poses do punho com o modelo de corpo inteiro. Com a solução baseada em aprendizado proposta, demonstramos o primeiro sistema de captura monocular em tempo real de todo o corpo com contato plausível pé-chão no espaço mundial. Mais resultados em vídeo podem ser encontrados em nossa página do projeto: https://liuyebin.com/proxycap.

English

Learning-based approaches to monocular motion capture have recently shown promising results by learning to regress in a data-driven manner. However, due to the challenges in data collection and network designs, it remains challenging for existing solutions to achieve real-time full-body capture while being accurate in world space. In this work, we contribute a sequential proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton sequences and 3D rotational motions in world space. Such proxy data enables us to build a learning-based network with accurate full-body supervision while also mitigating the generalization issues. For more accurate and physically plausible predictions, a contact-aware neural motion descent module is proposed in our network so that it can be aware of foot-ground contact and motion misalignment with the proxy observations. Additionally, we share the body-hand context information in our network for more compatible wrist poses recovery with the full-body model. With the proposed learning-based solution, we demonstrate the first real-time monocular full-body capture system with plausible foot-ground contact in world space. More video results can be found at our project page: https://liuyebin.com/proxycap.

Captura Monocular em Tempo Real do Corpo Inteiro no Espaço Mundial por meio de Aprendizado Sequencial de Proxy para Movimento

Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning

Resumo

Support