ChatPaper.aiChatPaper

HumanMM: 멀티샷 비디오에서의 전역적 인간 동작 복원

HumanMM: Global Human Motion Recovery from Multi-shot Videos

March 10, 2025
저자: Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
cs.AI

초록

본 논문에서는 다중 샷 전환(multiple shot transitions)이 포함된 야외 비디오로부터 긴 시퀀스의 3D 인간 동작을 세계 좌표계(world coordinates)로 재구성하기 위한 새로운 프레임워크를 제안합니다. 이러한 긴 시퀀스의 야외 동작은 동작 생성(motion generation) 및 동작 이해(motion understanding)와 같은 응용 분야에 매우 유용하지만, 이러한 비디오에서 발생하는 갑작스러운 샷 전환, 부분적 폐색(partial occlusions), 그리고 동적 배경(dynamic backgrounds)으로 인해 복원이 매우 어려운 문제입니다. 기존 방법들은 주로 단일 샷 비디오에 초점을 맞추고 있으며, 이는 단일 카메라 뷰 내에서 연속성을 유지하거나 다중 샷 정렬(multi-shot alignment)을 카메라 공간에서만 단순화합니다. 본 연구에서는 샷 전환 감지기(shot transition detector)와 강력한 정렬 모듈(alignment module)을 통합하여 샷 간 정확한 자세 및 방향 연속성을 보장함으로써 이러한 문제를 해결합니다. 또한, 사용자 정의 동작 통합기(custom motion integrator)를 활용하여 발 미끄러짐(foot sliding) 문제를 효과적으로 완화하고 인간 자세의 시간적 일관성(temporal consistency)을 보장합니다. 공개된 3D 인간 데이터셋으로부터 생성한 다중 샷 데이터셋에 대한 광범위한 평가를 통해, 본 방법이 세계 좌표계에서 현실적인 인간 동작을 재구성하는 데 있어 견고함을 입증하였습니다.
English
In this paper, we present a novel framework designed to reconstruct long-sequence 3D human motion in the world coordinates from in-the-wild videos with multiple shot transitions. Such long-sequence in-the-wild motions are highly valuable to applications such as motion generation and motion understanding, but are of great challenge to be recovered due to abrupt shot transitions, partial occlusions, and dynamic backgrounds presented in such videos. Existing methods primarily focus on single-shot videos, where continuity is maintained within a single camera view, or simplify multi-shot alignment in camera space only. In this work, we tackle the challenges by integrating an enhanced camera pose estimation with Human Motion Recovery (HMR) by incorporating a shot transition detector and a robust alignment module for accurate pose and orientation continuity across shots. By leveraging a custom motion integrator, we effectively mitigate the problem of foot sliding and ensure temporal consistency in human pose. Extensive evaluations on our created multi-shot dataset from public 3D human datasets demonstrate the robustness of our method in reconstructing realistic human motion in world coordinates.

Summary

AI-Generated Summary

PDF21March 11, 2025