HumanMM: Recuperação Global de Movimento Humano a partir de Vídeos com Múltiplas Tomadas
HumanMM: Global Human Motion Recovery from Multi-shot Videos
March 10, 2025
Autores: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI
Resumo
Neste artigo, apresentamos uma nova estrutura projetada para reconstruir movimentos humanos 3D de longa sequência em coordenadas mundiais a partir de vídeos capturados em ambientes reais com múltiplas transições de cena. Esses movimentos de longa sequência em ambientes reais são altamente valiosos para aplicações como geração e compreensão de movimentos, mas representam um grande desafio para serem recuperados devido às transições abruptas de cena, oclusões parciais e fundos dinâmicos presentes nesses vídeos. Os métodos existentes focam principalmente em vídeos de cena única, onde a continuidade é mantida dentro de uma única visão de câmera, ou simplificam o alinhamento multi-cena apenas no espaço da câmera. Neste trabalho, abordamos esses desafios integrando uma estimativa aprimorada da pose da câmera com a Recuperação de Movimento Humano (HMR), incorporando um detector de transição de cena e um módulo robusto de alinhamento para garantir a continuidade precisa da pose e orientação entre as cenas. Ao utilizar um integrador de movimento personalizado, mitigamos efetivamente o problema de deslizamento dos pés e garantimos a consistência temporal na pose humana. Avaliações extensivas em nosso conjunto de dados multi-cena criado a partir de conjuntos de dados públicos de humanos 3D demonstram a robustez do nosso método na reconstrução de movimentos humanos realistas em coordenadas mundiais.
English
In this paper, we present a novel framework designed to reconstruct
long-sequence 3D human motion in the world coordinates from in-the-wild videos
with multiple shot transitions. Such long-sequence in-the-wild motions are
highly valuable to applications such as motion generation and motion
understanding, but are of great challenge to be recovered due to abrupt shot
transitions, partial occlusions, and dynamic backgrounds presented in such
videos. Existing methods primarily focus on single-shot videos, where
continuity is maintained within a single camera view, or simplify multi-shot
alignment in camera space only. In this work, we tackle the challenges by
integrating an enhanced camera pose estimation with Human Motion Recovery (HMR)
by incorporating a shot transition detector and a robust alignment module for
accurate pose and orientation continuity across shots. By leveraging a custom
motion integrator, we effectively mitigate the problem of foot sliding and
ensure temporal consistency in human pose. Extensive evaluations on our created
multi-shot dataset from public 3D human datasets demonstrate the robustness of
our method in reconstructing realistic human motion in world coordinates.Summary
AI-Generated Summary