HumanMM: Globale Wiederherstellung menschlicher Bewegungen aus mehrteiligen Videos
HumanMM: Global Human Motion Recovery from Multi-shot Videos
March 10, 2025
Autoren: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI
Zusammenfassung
In diesem Artikel präsentieren wir ein neuartiges Framework, das darauf ausgelegt ist, lange Sequenzen von 3D-Bewegungen des menschlichen Körpers in Weltkoordinaten aus Videos in freier Wildbahn mit mehreren Schnittübergängen zu rekonstruieren. Solche langen Bewegungssequenzen in freier Wildbahn sind für Anwendungen wie Bewegungsgenerierung und Bewegungsverständnis äußerst wertvoll, stellen jedoch aufgrund von abrupten Schnittübergängen, teilweisen Verdeckungen und dynamischen Hintergründen in solchen Videos eine große Herausforderung dar. Bestehende Methoden konzentrieren sich hauptsächlich auf Einzelaufnahmen, bei denen die Kontinuität innerhalb einer einzelnen Kameraperspektive gewährleistet ist, oder vereinfachen die Ausrichtung mehrerer Aufnahmen lediglich im Kameraraum. In dieser Arbeit gehen wir die Herausforderungen an, indem wir eine verbesserte Kameraposenschätzung mit der Wiederherstellung menschlicher Bewegungen (Human Motion Recovery, HMR) kombinieren und dabei einen Schnittübergangsdetektor sowie ein robustes Ausrichtungsmodul für eine genaue Kontinuität von Pose und Orientierung über Schnittübergänge hinweg integrieren. Durch die Nutzung eines speziellen Bewegungsintegrators mildern wir effektiv das Problem des Fußgleitens und gewährleisten zeitliche Konsistenz in der menschlichen Pose. Umfangreiche Auswertungen auf unserem erstellten Multi-Shot-Datensatz, der aus öffentlichen 3D-Mensch-Datensätzen stammt, demonstrieren die Robustheit unserer Methode bei der Rekonstruktion realistischer menschlicher Bewegungen in Weltkoordinaten.
English
In this paper, we present a novel framework designed to reconstruct
long-sequence 3D human motion in the world coordinates from in-the-wild videos
with multiple shot transitions. Such long-sequence in-the-wild motions are
highly valuable to applications such as motion generation and motion
understanding, but are of great challenge to be recovered due to abrupt shot
transitions, partial occlusions, and dynamic backgrounds presented in such
videos. Existing methods primarily focus on single-shot videos, where
continuity is maintained within a single camera view, or simplify multi-shot
alignment in camera space only. In this work, we tackle the challenges by
integrating an enhanced camera pose estimation with Human Motion Recovery (HMR)
by incorporating a shot transition detector and a robust alignment module for
accurate pose and orientation continuity across shots. By leveraging a custom
motion integrator, we effectively mitigate the problem of foot sliding and
ensure temporal consistency in human pose. Extensive evaluations on our created
multi-shot dataset from public 3D human datasets demonstrate the robustness of
our method in reconstructing realistic human motion in world coordinates.Summary
AI-Generated Summary