ChatPaper.aiChatPaper

CoMotion : Mouvement 3D simultané pour plusieurs personnes

CoMotion: Concurrent Multi-person 3D Motion

April 16, 2025
Auteurs: Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun
cs.AI

Résumé

Nous présentons une approche pour détecter et suivre les poses 3D détaillées de plusieurs personnes à partir d'un flux vidéo monoculaire unique. Notre système maintient des prédictions temporellement cohérentes dans des scènes encombrées comportant des poses complexes et des occlusions. Notre modèle effectue à la fois une détection robuste par image et une mise à jour apprise des poses pour suivre les personnes d'une image à l'autre. Plutôt que de faire correspondre les détections dans le temps, les poses sont mises à jour directement à partir d'une nouvelle image d'entrée, ce qui permet un suivi en ligne malgré les occlusions. Nous entraînons notre modèle sur de nombreux ensembles de données d'images et de vidéos en exploitant des annotations pseudo-étiquetées pour produire un modèle qui rivalise avec les systèmes de pointe en termes de précision d'estimation des poses 3D, tout en étant plus rapide et plus précis pour suivre plusieurs personnes dans le temps. Le code et les poids sont disponibles à l'adresse suivante : https://github.com/apple/ml-comotion.
English
We introduce an approach for detecting and tracking detailed 3D poses of multiple people from a single monocular camera stream. Our system maintains temporally coherent predictions in crowded scenes filled with difficult poses and occlusions. Our model performs both strong per-frame detection and a learned pose update to track people from frame to frame. Rather than match detections across time, poses are updated directly from a new input image, which enables online tracking through occlusion. We train on numerous image and video datasets leveraging pseudo-labeled annotations to produce a model that matches state-of-the-art systems in 3D pose estimation accuracy while being faster and more accurate in tracking multiple people through time. Code and weights are provided at https://github.com/apple/ml-comotion
PDF42April 22, 2025