CoMotion: Movimento 3D Simultâneo de Múltiplas Pessoas
CoMotion: Concurrent Multi-person 3D Motion
April 16, 2025
Autores: Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun
cs.AI
Resumo
Apresentamos uma abordagem para detectar e rastrear poses 3D detalhadas de múltiplas pessoas a partir de um único fluxo de câmera monocular. Nosso sistema mantém previsões temporalmente coerentes em cenas lotadas com poses difíceis e oclusões. Nosso modelo realiza tanto uma detecção robusta por quadro quanto uma atualização de pose aprendida para rastrear pessoas de quadro a quadro. Em vez de corresponder detecções ao longo do tempo, as poses são atualizadas diretamente a partir de uma nova imagem de entrada, o que permite o rastreamento online mesmo durante oclusões. Treinamos em diversos conjuntos de dados de imagens e vídeos, aproveitando anotações pseudo-rotuladas para produzir um modelo que iguala sistemas de última geração em precisão de estimativa de pose 3D, ao mesmo tempo em que é mais rápido e preciso no rastreamento de múltiplas pessoas ao longo do tempo. O código e os pesos estão disponíveis em https://github.com/apple/ml-comotion.
English
We introduce an approach for detecting and tracking detailed 3D poses of
multiple people from a single monocular camera stream. Our system maintains
temporally coherent predictions in crowded scenes filled with difficult poses
and occlusions. Our model performs both strong per-frame detection and a
learned pose update to track people from frame to frame. Rather than match
detections across time, poses are updated directly from a new input image,
which enables online tracking through occlusion. We train on numerous image and
video datasets leveraging pseudo-labeled annotations to produce a model that
matches state-of-the-art systems in 3D pose estimation accuracy while being
faster and more accurate in tracking multiple people through time. Code and
weights are provided at https://github.com/apple/ml-comotionSummary
AI-Generated Summary