CoMotion: 複数人同時3Dモーション
CoMotion: Concurrent Multi-person 3D Motion
April 16, 2025
著者: Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun
cs.AI
要旨
単眼カメラのストリームから複数人物の詳細な3Dポーズを検出・追跡する手法を提案します。本システムは、困難なポーズやオクルージョンが混在する混雑したシーンにおいても、時間的に一貫した予測を維持します。モデルは、フレームごとの強力な検出と、フレーム間で人物を追跡するための学習済みポーズ更新の両方を実行します。時間軸を跨いだ検出結果のマッチングではなく、新しい入力画像から直接ポーズを更新することで、オクルージョン中でもオンライン追跡を可能にします。擬似ラベル付きアノテーションを活用した多数の画像・動画データセットで学習を行い、3Dポーズ推定精度において最先端システムに匹敵するモデルを実現しました。さらに、複数人物の時間的追跡においても高速かつ高精度です。コードと重みはhttps://github.com/apple/ml-comotionで提供しています。
English
We introduce an approach for detecting and tracking detailed 3D poses of
multiple people from a single monocular camera stream. Our system maintains
temporally coherent predictions in crowded scenes filled with difficult poses
and occlusions. Our model performs both strong per-frame detection and a
learned pose update to track people from frame to frame. Rather than match
detections across time, poses are updated directly from a new input image,
which enables online tracking through occlusion. We train on numerous image and
video datasets leveraging pseudo-labeled annotations to produce a model that
matches state-of-the-art systems in 3D pose estimation accuracy while being
faster and more accurate in tracking multiple people through time. Code and
weights are provided at https://github.com/apple/ml-comotionSummary
AI-Generated Summary