HumanMM: Recuperación Global del Movimiento Humano a partir de Vídeos de Múltiples Tomas
HumanMM: Global Human Motion Recovery from Multi-shot Videos
March 10, 2025
Autores: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI
Resumen
En este artículo, presentamos un marco novedoso diseñado para reconstruir secuencias largas de movimiento humano en 3D en coordenadas mundiales a partir de videos en entornos naturales con múltiples transiciones de toma. Estas secuencias largas de movimiento en entornos naturales son altamente valiosas para aplicaciones como la generación y comprensión de movimiento, pero representan un gran desafío para su recuperación debido a las transiciones abruptas de toma, oclusiones parciales y fondos dinámicos presentes en dichos videos. Los métodos existentes se centran principalmente en videos de una sola toma, donde se mantiene la continuidad dentro de una única vista de cámara, o simplifican la alineación multi-toma únicamente en el espacio de la cámara. En este trabajo, abordamos estos desafíos integrando una estimación mejorada de la pose de la cámara con la Recuperación de Movimiento Humano (HMR), incorporando un detector de transiciones de toma y un módulo de alineación robusto para garantizar la continuidad precisa de la pose y la orientación entre tomas. Al aprovechar un integrador de movimiento personalizado, mitigamos efectivamente el problema del deslizamiento de los pies y aseguramos la consistencia temporal en la pose humana. Evaluaciones exhaustivas en nuestro conjunto de datos multi-toma creado a partir de conjuntos de datos públicos de humanos en 3D demuestran la robustez de nuestro método para reconstruir movimientos humanos realistas en coordenadas mundiales.
English
In this paper, we present a novel framework designed to reconstruct
long-sequence 3D human motion in the world coordinates from in-the-wild videos
with multiple shot transitions. Such long-sequence in-the-wild motions are
highly valuable to applications such as motion generation and motion
understanding, but are of great challenge to be recovered due to abrupt shot
transitions, partial occlusions, and dynamic backgrounds presented in such
videos. Existing methods primarily focus on single-shot videos, where
continuity is maintained within a single camera view, or simplify multi-shot
alignment in camera space only. In this work, we tackle the challenges by
integrating an enhanced camera pose estimation with Human Motion Recovery (HMR)
by incorporating a shot transition detector and a robust alignment module for
accurate pose and orientation continuity across shots. By leveraging a custom
motion integrator, we effectively mitigate the problem of foot sliding and
ensure temporal consistency in human pose. Extensive evaluations on our created
multi-shot dataset from public 3D human datasets demonstrate the robustness of
our method in reconstructing realistic human motion in world coordinates.Summary
AI-Generated Summary