ChatPaper.aiChatPaper

HumanMM : Récupération globale du mouvement humain à partir de vidéos multi-prises

HumanMM: Global Human Motion Recovery from Multi-shot Videos

March 10, 2025
Auteurs: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI

Résumé

Dans cet article, nous présentons un nouveau cadre conçu pour reconstruire des séquences longues de mouvements humains en 3D dans les coordonnées mondiales à partir de vidéos en conditions réelles avec plusieurs transitions de plans. Ces mouvements longs en conditions réelles sont très précieux pour des applications telles que la génération de mouvements et la compréhension des mouvements, mais ils sont extrêmement difficiles à reconstruire en raison des transitions abruptes de plans, des occlusions partielles et des arrière-plans dynamiques présents dans ces vidéos. Les méthodes existantes se concentrent principalement sur des vidéos à plan unique, où la continuité est maintenue dans une seule vue de caméra, ou simplifient l'alignement multi-plans uniquement dans l'espace de la caméra. Dans ce travail, nous relevons ces défis en intégrant une estimation améliorée de la pose de la caméra avec la récupération de mouvements humains (HMR) en incorporant un détecteur de transitions de plans et un module d'alignement robuste pour assurer la continuité précise de la pose et de l'orientation entre les plans. En exploitant un intégrateur de mouvements personnalisé, nous atténuons efficacement le problème du glissement des pieds et garantissons la cohérence temporelle de la pose humaine. Des évaluations approfondies sur notre ensemble de données multi-plans créé à partir de jeux de données publics de mouvements humains en 3D démontrent la robustesse de notre méthode pour reconstruire des mouvements humains réalistes dans les coordonnées mondiales.
English
In this paper, we present a novel framework designed to reconstruct long-sequence 3D human motion in the world coordinates from in-the-wild videos with multiple shot transitions. Such long-sequence in-the-wild motions are highly valuable to applications such as motion generation and motion understanding, but are of great challenge to be recovered due to abrupt shot transitions, partial occlusions, and dynamic backgrounds presented in such videos. Existing methods primarily focus on single-shot videos, where continuity is maintained within a single camera view, or simplify multi-shot alignment in camera space only. In this work, we tackle the challenges by integrating an enhanced camera pose estimation with Human Motion Recovery (HMR) by incorporating a shot transition detector and a robust alignment module for accurate pose and orientation continuity across shots. By leveraging a custom motion integrator, we effectively mitigate the problem of foot sliding and ensure temporal consistency in human pose. Extensive evaluations on our created multi-shot dataset from public 3D human datasets demonstrate the robustness of our method in reconstructing realistic human motion in world coordinates.

Summary

AI-Generated Summary

PDF21March 11, 2025