ChatPaper.aiChatPaper

HumanMM: Globale Menselijke Bewegingsherkenning uit Multi-shot Video's

HumanMM: Global Human Motion Recovery from Multi-shot Videos

March 10, 2025
Auteurs: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI

Samenvatting

In dit artikel presenteren we een nieuw framework dat is ontworpen om lange sequenties van 3D menselijke beweging in wereldcoördinaten te reconstrueren uit in-the-wild video's met meerdere shotovergangen. Dergelijke lange sequenties van in-the-wild bewegingen zijn zeer waardevol voor toepassingen zoals beweginggeneratie en bewegingbegrip, maar vormen een grote uitdaging om te herstellen vanwege abrupte shotovergangen, gedeeltelijke occlusies en dynamische achtergronden die in dergelijke video's voorkomen. Bestaande methodes richten zich voornamelijk op video's met één shot, waarbij continuïteit binnen een enkel camerabeeld wordt gehandhaafd, of vereenvoudigen multi-shot uitlijning alleen in de cameraruimte. In dit werk pakken we de uitdagingen aan door een verbeterde camerapose-schatting te integreren met Human Motion Recovery (HMR) door een shotovergangdetector en een robuust uitlijningsmodule op te nemen voor nauwkeurige pose- en oriëntatiecontinuïteit tussen shots. Door gebruik te maken van een aangepaste bewegingintegrator, verminderen we effectief het probleem van voetglijden en zorgen we voor temporele consistentie in de menselijke pose. Uitgebreide evaluaties op onze gecreëerde multi-shot dataset, afgeleid van publieke 3D menselijke datasets, demonstreren de robuustheid van onze methode in het reconstrueren van realistische menselijke beweging in wereldcoördinaten.
English
In this paper, we present a novel framework designed to reconstruct long-sequence 3D human motion in the world coordinates from in-the-wild videos with multiple shot transitions. Such long-sequence in-the-wild motions are highly valuable to applications such as motion generation and motion understanding, but are of great challenge to be recovered due to abrupt shot transitions, partial occlusions, and dynamic backgrounds presented in such videos. Existing methods primarily focus on single-shot videos, where continuity is maintained within a single camera view, or simplify multi-shot alignment in camera space only. In this work, we tackle the challenges by integrating an enhanced camera pose estimation with Human Motion Recovery (HMR) by incorporating a shot transition detector and a robust alignment module for accurate pose and orientation continuity across shots. By leveraging a custom motion integrator, we effectively mitigate the problem of foot sliding and ensure temporal consistency in human pose. Extensive evaluations on our created multi-shot dataset from public 3D human datasets demonstrate the robustness of our method in reconstructing realistic human motion in world coordinates.

Summary

AI-Generated Summary

PDF21March 11, 2025