HumanMM: Ricostruzione Globale del Movimento Umano da Video Multi-shot

Abstract

In questo articolo, presentiamo un nuovo framework progettato per ricostruire sequenze lunghe di movimento umano 3D in coordinate globali a partire da video in contesti reali con multiple transizioni di inquadratura. Tali sequenze lunghe di movimento in contesti reali sono estremamente preziose per applicazioni come la generazione e la comprensione del movimento, ma rappresentano una grande sfida da recuperare a causa delle brusche transizioni di inquadratura, delle occlusioni parziali e degli sfondi dinamici presenti in tali video. I metodi esistenti si concentrano principalmente su video a singola inquadratura, dove la continuità è mantenuta all'interno di una singola vista della telecamera, o semplificano l'allineamento multi-inquadratura solo nello spazio della telecamera. In questo lavoro, affrontiamo le sfide integrando una stima avanzata della posa della telecamera con il Recupero del Movimento Umano (HMR), incorporando un rilevatore di transizioni di inquadratura e un modulo di allineamento robusto per garantire la continuità precisa della posa e dell'orientamento tra le inquadrature. Sfruttando un integratore di movimento personalizzato, mitigiamo efficacemente il problema dello scivolamento dei piedi e assicuriamo la coerenza temporale nella posa umana. Valutazioni estensive sul nostro dataset multi-inquadratura creato da dataset pubblici di movimento umano 3D dimostrano la robustezza del nostro metodo nel ricostruire movimenti umani realistici in coordinate globali.

English

In this paper, we present a novel framework designed to reconstruct long-sequence 3D human motion in the world coordinates from in-the-wild videos with multiple shot transitions. Such long-sequence in-the-wild motions are highly valuable to applications such as motion generation and motion understanding, but are of great challenge to be recovered due to abrupt shot transitions, partial occlusions, and dynamic backgrounds presented in such videos. Existing methods primarily focus on single-shot videos, where continuity is maintained within a single camera view, or simplify multi-shot alignment in camera space only. In this work, we tackle the challenges by integrating an enhanced camera pose estimation with Human Motion Recovery (HMR) by incorporating a shot transition detector and a robust alignment module for accurate pose and orientation continuity across shots. By leveraging a custom motion integrator, we effectively mitigate the problem of foot sliding and ensure temporal consistency in human pose. Extensive evaluations on our created multi-shot dataset from public 3D human datasets demonstrate the robustness of our method in reconstructing realistic human motion in world coordinates.

HumanMM: Ricostruzione Globale del Movimento Umano da Video Multi-shot

HumanMM: Global Human Motion Recovery from Multi-shot Videos

Abstract

Support