Echtzeit-Monokulare Ganzkörpererfassung im Weltraum durch sequenzielles Proxy-zu-Bewegung-Lernen
Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning
July 3, 2023
Autoren: Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Hongwei Yi, Shengping Zhang, Yebin Liu
cs.AI
Zusammenfassung
Lernbasierte Ansätze zur monokularen Bewegungsaufnahme haben kürzlich vielversprechende Ergebnisse gezeigt, indem sie gelernt haben, auf datengetriebene Weise zu regressieren. Aufgrund der Herausforderungen bei der Datenerfassung und Netzwerkdesigns bleibt es jedoch schwierig, mit bestehenden Lösungen eine Echtzeit-Erfassung des gesamten Körpers zu erreichen, die gleichzeitig im Weltraum präzise ist. In dieser Arbeit tragen wir ein sequenzielles Proxy-zu-Bewegung-Lernschema zusammen mit einem Proxy-Datensatz von 2D-Skelettsequenzen und 3D-Rotationsbewegungen im Weltraum bei. Solche Proxy-Daten ermöglichen es uns, ein lernbasiertes Netzwerk mit präziser Ganzkörperüberwachung zu erstellen und gleichzeitig die Generalisierungsprobleme zu mildern. Für genauere und physikalisch plausiblere Vorhersagen wird in unserem Netzwerk ein kontaktbewusstes neuronales Bewegungsabstiegsmodul vorgeschlagen, damit es sich des Fuß-Boden-Kontakts und der Bewegungsfehlausrichtung mit den Proxy-Beobachtungen bewusst sein kann. Zusätzlich teilen wir die Körper-Hand-Kontextinformationen in unserem Netzwerk, um eine kompatiblere Wiederherstellung der Handgelenkposen mit dem Ganzkörpermodell zu ermöglichen. Mit dem vorgeschlagenen lernbasierten Ansatz demonstrieren wir das erste Echtzeit-Monokular-Ganzkörper-Erfassungssystem mit plausiblen Fuß-Boden-Kontakten im Weltraum. Weitere Videoergebnisse finden Sie auf unserer Projektseite: https://liuyebin.com/proxycap.
English
Learning-based approaches to monocular motion capture have recently shown
promising results by learning to regress in a data-driven manner. However, due
to the challenges in data collection and network designs, it remains
challenging for existing solutions to achieve real-time full-body capture while
being accurate in world space. In this work, we contribute a sequential
proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton
sequences and 3D rotational motions in world space. Such proxy data enables us
to build a learning-based network with accurate full-body supervision while
also mitigating the generalization issues. For more accurate and physically
plausible predictions, a contact-aware neural motion descent module is proposed
in our network so that it can be aware of foot-ground contact and motion
misalignment with the proxy observations. Additionally, we share the body-hand
context information in our network for more compatible wrist poses recovery
with the full-body model. With the proposed learning-based solution, we
demonstrate the first real-time monocular full-body capture system with
plausible foot-ground contact in world space. More video results can be found
at our project page: https://liuyebin.com/proxycap.