HumanMM: Ricostruzione Globale del Movimento Umano da Video Multi-shot
HumanMM: Global Human Motion Recovery from Multi-shot Videos
March 10, 2025
Autori: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI
Abstract
In questo articolo, presentiamo un nuovo framework progettato per ricostruire sequenze lunghe di movimento umano 3D in coordinate globali a partire da video in contesti reali con multiple transizioni di inquadratura. Tali sequenze lunghe di movimento in contesti reali sono estremamente preziose per applicazioni come la generazione e la comprensione del movimento, ma rappresentano una grande sfida da recuperare a causa delle brusche transizioni di inquadratura, delle occlusioni parziali e degli sfondi dinamici presenti in tali video. I metodi esistenti si concentrano principalmente su video a singola inquadratura, dove la continuità è mantenuta all'interno di una singola vista della telecamera, o semplificano l'allineamento multi-inquadratura solo nello spazio della telecamera. In questo lavoro, affrontiamo le sfide integrando una stima avanzata della posa della telecamera con il Recupero del Movimento Umano (HMR), incorporando un rilevatore di transizioni di inquadratura e un modulo di allineamento robusto per garantire la continuità precisa della posa e dell'orientamento tra le inquadrature. Sfruttando un integratore di movimento personalizzato, mitigiamo efficacemente il problema dello scivolamento dei piedi e assicuriamo la coerenza temporale nella posa umana. Valutazioni estensive sul nostro dataset multi-inquadratura creato da dataset pubblici di movimento umano 3D dimostrano la robustezza del nostro metodo nel ricostruire movimenti umani realistici in coordinate globali.
English
In this paper, we present a novel framework designed to reconstruct
long-sequence 3D human motion in the world coordinates from in-the-wild videos
with multiple shot transitions. Such long-sequence in-the-wild motions are
highly valuable to applications such as motion generation and motion
understanding, but are of great challenge to be recovered due to abrupt shot
transitions, partial occlusions, and dynamic backgrounds presented in such
videos. Existing methods primarily focus on single-shot videos, where
continuity is maintained within a single camera view, or simplify multi-shot
alignment in camera space only. In this work, we tackle the challenges by
integrating an enhanced camera pose estimation with Human Motion Recovery (HMR)
by incorporating a shot transition detector and a robust alignment module for
accurate pose and orientation continuity across shots. By leveraging a custom
motion integrator, we effectively mitigate the problem of foot sliding and
ensure temporal consistency in human pose. Extensive evaluations on our created
multi-shot dataset from public 3D human datasets demonstrate the robustness of
our method in reconstructing realistic human motion in world coordinates.Summary
AI-Generated Summary