HumanMM: Recuperación Global del Movimiento Humano a partir de Vídeos de Múltiples Tomas

Resumen

En este artículo, presentamos un marco novedoso diseñado para reconstruir secuencias largas de movimiento humano en 3D en coordenadas mundiales a partir de videos en entornos naturales con múltiples transiciones de toma. Estas secuencias largas de movimiento en entornos naturales son altamente valiosas para aplicaciones como la generación y comprensión de movimiento, pero representan un gran desafío para su recuperación debido a las transiciones abruptas de toma, oclusiones parciales y fondos dinámicos presentes en dichos videos. Los métodos existentes se centran principalmente en videos de una sola toma, donde se mantiene la continuidad dentro de una única vista de cámara, o simplifican la alineación multi-toma únicamente en el espacio de la cámara. En este trabajo, abordamos estos desafíos integrando una estimación mejorada de la pose de la cámara con la Recuperación de Movimiento Humano (HMR), incorporando un detector de transiciones de toma y un módulo de alineación robusto para garantizar la continuidad precisa de la pose y la orientación entre tomas. Al aprovechar un integrador de movimiento personalizado, mitigamos efectivamente el problema del deslizamiento de los pies y aseguramos la consistencia temporal en la pose humana. Evaluaciones exhaustivas en nuestro conjunto de datos multi-toma creado a partir de conjuntos de datos públicos de humanos en 3D demuestran la robustez de nuestro método para reconstruir movimientos humanos realistas en coordenadas mundiales.

English

In this paper, we present a novel framework designed to reconstruct long-sequence 3D human motion in the world coordinates from in-the-wild videos with multiple shot transitions. Such long-sequence in-the-wild motions are highly valuable to applications such as motion generation and motion understanding, but are of great challenge to be recovered due to abrupt shot transitions, partial occlusions, and dynamic backgrounds presented in such videos. Existing methods primarily focus on single-shot videos, where continuity is maintained within a single camera view, or simplify multi-shot alignment in camera space only. In this work, we tackle the challenges by integrating an enhanced camera pose estimation with Human Motion Recovery (HMR) by incorporating a shot transition detector and a robust alignment module for accurate pose and orientation continuity across shots. By leveraging a custom motion integrator, we effectively mitigate the problem of foot sliding and ensure temporal consistency in human pose. Extensive evaluations on our created multi-shot dataset from public 3D human datasets demonstrate the robustness of our method in reconstructing realistic human motion in world coordinates.

HumanMM: Recuperación Global del Movimiento Humano a partir de Vídeos de Múltiples Tomas

HumanMM: Global Human Motion Recovery from Multi-shot Videos

Resumen

Support