SAM-Body4D: Recuperação de Malhas Corporais Humanas 4D sem Treinamento a partir de Vídeos

Resumo

A Recuperação de Malha Humana (HMR) tem como objetivo reconstruir a pose e a forma 3D de um humano a partir de observações 2D e é fundamental para a compreensão centrada no humano em cenários do mundo real. Embora métodos recentes de HMR baseados em imagem, como o SAM 3D Body, alcancem uma forte robustez em imagens "in-the-wild" (do mundo real), eles dependem de inferência por quadro quando aplicados a vídeos, resultando em inconsistência temporal e degradação do desempenho sob oclusões. Nós abordamos essas questões sem treinamento adicional, aproveitando a continuidade humana inerente nos vídeos. Propomos o SAM-Body4D, uma estrutura *training-free* (sem necessidade de treino) para HMR temporalmente consistente e robusto a oclusões a partir de vídeos. Primeiro, geramos *masklets* (pequenas máscaras) consistentes em identidade usando um modelo de segmentação de vídeo acionável por *prompts* (instruções), depois os refinamos com um módulo de Consciência de Oclusão para recuperar regiões faltantes. Os *masklets* refinados orientam o SAM 3D Body a produzir trajetórias de malha corporal completa consistentes, enquanto uma estratégia paralela baseada em *padding* (preenchimento) permite uma inferência eficiente para múltiplas pessoas. Resultados experimentais demonstram que o SAM-Body4D alcança uma estabilidade temporal e robustez melhoradas em vídeos "in-the-wild" desafiadores, sem qualquer retreinamento. Nosso código e demonstração estão disponíveis em: https://github.com/gaomingqi/sam-body4d.

English

Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.

SAM-Body4D: Recuperação de Malhas Corporais Humanas 4D sem Treinamento a partir de Vídeos

SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos

Resumo

Support