HumanMM: Глобальное восстановление движений человека по видеозаписям с несколькими кадрами
HumanMM: Global Human Motion Recovery from Multi-shot Videos
March 10, 2025
Авторы: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI
Аннотация
В данной статье мы представляем новую структуру, предназначенную для восстановления длинных последовательностей 3D-движений человека в мировых координатах на основе видеозаписей, сделанных в естественных условиях с множественными переходами между кадрами. Такие длинные последовательности движений, зафиксированные в реальных условиях, представляют большую ценность для приложений, таких как генерация движений и их анализ, однако их восстановление сопряжено с существенными трудностями из-за резких переходов между кадрами, частичных перекрытий и динамического фона, присутствующих в таких видеозаписях. Существующие методы в основном сосредоточены на видео с одним кадром, где непрерывность сохраняется в пределах одного угла съемки, или упрощают выравнивание между кадрами только в пространстве камеры. В данной работе мы решаем эти задачи путем интеграции улучшенной оценки положения камеры с восстановлением движений человека (HMR), включая детектор переходов между кадрами и надежный модуль выравнивания для обеспечения точной непрерывности позы и ориентации между кадрами. Используя специальный интегратор движений, мы эффективно устраняем проблему скольжения стоп и обеспечиваем временную согласованность позы человека. Обширные оценки на созданном нами наборе данных с множественными кадрами, основанном на публичных наборах данных 3D-движений человека, демонстрируют устойчивость нашего метода в восстановлении реалистичных движений человека в мировых координатах.
English
In this paper, we present a novel framework designed to reconstruct
long-sequence 3D human motion in the world coordinates from in-the-wild videos
with multiple shot transitions. Such long-sequence in-the-wild motions are
highly valuable to applications such as motion generation and motion
understanding, but are of great challenge to be recovered due to abrupt shot
transitions, partial occlusions, and dynamic backgrounds presented in such
videos. Existing methods primarily focus on single-shot videos, where
continuity is maintained within a single camera view, or simplify multi-shot
alignment in camera space only. In this work, we tackle the challenges by
integrating an enhanced camera pose estimation with Human Motion Recovery (HMR)
by incorporating a shot transition detector and a robust alignment module for
accurate pose and orientation continuity across shots. By leveraging a custom
motion integrator, we effectively mitigate the problem of foot sliding and
ensure temporal consistency in human pose. Extensive evaluations on our created
multi-shot dataset from public 3D human datasets demonstrate the robustness of
our method in reconstructing realistic human motion in world coordinates.Summary
AI-Generated Summary