Humanos em 4D: Reconstrução e Rastreamento de Humanos com Transformers
Humans in 4D: Reconstructing and Tracking Humans with Transformers
May 31, 2023
Autores: Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik
cs.AI
Resumo
Apresentamos uma abordagem para reconstruir humanos e rastreá-los ao longo do tempo. No cerne de nossa abordagem, propomos uma versão totalmente "transformada" de uma rede para recuperação de malha humana. Essa rede, HMR 2.0, avança o estado da arte e demonstra a capacidade de analisar poses incomuns que, no passado, eram difíceis de reconstruir a partir de imagens únicas. Para analisar vídeos, utilizamos reconstruções 3D do HMR 2.0 como entrada para um sistema de rastreamento que opera em 3D. Isso nos permite lidar com múltiplas pessoas e manter identidades durante eventos de oclusão. Nossa abordagem completa, 4DHumans, alcança resultados de ponta para o rastreamento de pessoas a partir de vídeos monoculares. Além disso, demonstramos a eficácia do HMR 2.0 na tarefa subsequente de reconhecimento de ações, obtendo melhorias significativas em relação às abordagens anteriores baseadas em poses. Nosso código e modelos estão disponíveis no site do projeto: https://shubham-goel.github.io/4dhumans/.
English
We present an approach to reconstruct humans and track them over time. At the
core of our approach, we propose a fully "transformerized" version of a network
for human mesh recovery. This network, HMR 2.0, advances the state of the art
and shows the capability to analyze unusual poses that have in the past been
difficult to reconstruct from single images. To analyze video, we use 3D
reconstructions from HMR 2.0 as input to a tracking system that operates in 3D.
This enables us to deal with multiple people and maintain identities through
occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art
results for tracking people from monocular video. Furthermore, we demonstrate
the effectiveness of HMR 2.0 on the downstream task of action recognition,
achieving significant improvements over previous pose-based action recognition
approaches. Our code and models are available on the project website:
https://shubham-goel.github.io/4dhumans/.