CoMotion: Совместное многопользовательское 3D-движение
CoMotion: Concurrent Multi-person 3D Motion
April 16, 2025
Авторы: Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun
cs.AI
Аннотация
Мы представляем подход для обнаружения и отслеживания детализированных 3D поз нескольких людей из потока данных с одной монохромной камеры. Наша система обеспечивает временную согласованность предсказаний в переполненных сценах с сложными позами и окклюзиями. Наша модель выполняет как надежное обнаружение на каждом кадре, так и обученное обновление поз для отслеживания людей от кадра к кадру. Вместо сопоставления обнаружений во времени, позы обновляются напрямую на основе нового входного изображения, что позволяет осуществлять онлайн-отслеживание через окклюзии. Мы обучаем модель на множестве наборов изображений и видео, используя псевдоразмеченные аннотации, чтобы создать модель, которая соответствует современным системам по точности оценки 3D поз, при этом будучи быстрее и точнее в отслеживании нескольких людей во времени. Код и веса модели доступны по адресу https://github.com/apple/ml-comotion.
English
We introduce an approach for detecting and tracking detailed 3D poses of
multiple people from a single monocular camera stream. Our system maintains
temporally coherent predictions in crowded scenes filled with difficult poses
and occlusions. Our model performs both strong per-frame detection and a
learned pose update to track people from frame to frame. Rather than match
detections across time, poses are updated directly from a new input image,
which enables online tracking through occlusion. We train on numerous image and
video datasets leveraging pseudo-labeled annotations to produce a model that
matches state-of-the-art systems in 3D pose estimation accuracy while being
faster and more accurate in tracking multiple people through time. Code and
weights are provided at https://github.com/apple/ml-comotionSummary
AI-Generated Summary