CoMotion: 동시 다인 3D 모션
CoMotion: Concurrent Multi-person 3D Motion
April 16, 2025
저자: Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun
cs.AI
초록
단일 모노큘러 카메라 스트림에서 여러 사람의 세부적인 3D 자세를 감지하고 추적하는 접근 방식을 소개합니다. 우리의 시스템은 어려운 자세와 가려짐이 빈번한 혼잡한 장면에서도 시간적으로 일관된 예측을 유지합니다. 우리의 모델은 강력한 프레임별 감지와 학습된 자세 업데이트를 수행하여 프레임 간 사람을 추적합니다. 시간에 걸쳐 감지 결과를 매칭하는 대신, 새로운 입력 이미지에서 직접 자세를 업데이트함으로써 가려짐 상황에서도 온라인 추적이 가능합니다. 우리는 수많은 이미지 및 비디오 데이터셋에 대해 의사 레이블(pseudo-labeled) 주석을 활용하여 모델을 학습시켰으며, 이를 통해 3D 자세 추정 정확도에서 최첨단 시스템과 대등한 성능을 보이면서도 시간에 걸쳐 여러 사람을 더 빠르고 정확하게 추적할 수 있는 모델을 구현했습니다. 코드와 가중치는 https://github.com/apple/ml-comotion에서 제공됩니다.
English
We introduce an approach for detecting and tracking detailed 3D poses of
multiple people from a single monocular camera stream. Our system maintains
temporally coherent predictions in crowded scenes filled with difficult poses
and occlusions. Our model performs both strong per-frame detection and a
learned pose update to track people from frame to frame. Rather than match
detections across time, poses are updated directly from a new input image,
which enables online tracking through occlusion. We train on numerous image and
video datasets leveraging pseudo-labeled annotations to produce a model that
matches state-of-the-art systems in 3D pose estimation accuracy while being
faster and more accurate in tracking multiple people through time. Code and
weights are provided at https://github.com/apple/ml-comotionSummary
AI-Generated Summary