SAM-Body4D : Reconstruction sans entraînement de maillages corporels humains 4D à partir de vidéos
SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos
December 9, 2025
papers.authors: Mingqi Gao, Yunqi Miao, Jungong Han
cs.AI
papers.abstract
La reconstruction de maillages humains (HMR) vise à reconstruire la pose et la forme humaines en 3D à partir d'observations 2D et constitue un fondement essentiel pour la compréhension centrée sur l'humain dans des scénarios réels. Bien que les méthodes récentes de HMR basées sur l'image, telles que SAM 3D Body, obtiennent une robustesse élevée sur des images en conditions réelles, elles reposent sur une inférence image par image lorsqu'elles sont appliquées à des vidéos, entraînant une incohérence temporelle et une dégradation des performances en cas d'occlusions. Nous abordons ces problèmes sans entraînement supplémentaire en exploitant la continuité humaine inhérente aux vidéos. Nous proposons SAM-Body4D, un cadre sans entraînement pour une HMR temporellement cohérente et robuste aux occlusions à partir de vidéos. Nous générons d'abord des masquelets cohérents par identité à l'aide d'un modèle de segmentation vidéo adaptable par prompt, puis nous les affinons avec un module de prise en compte des occlusions pour restaurer les régions manquantes. Les masquelets raffinés guident SAM 3D Body pour produire des trajectoires de maillages corporels complets cohérentes, tandis qu'une stratégie parallèle par remplissage permet une inférence multi-personnes efficace. Les résultats expérimentaux démontrent que SAM-Body4D atteint une stabilité temporelle et une robustesse améliorées dans des vidéos en conditions réelles difficiles, sans aucun réentraînement. Notre code et notre démonstration sont disponibles à l'adresse : https://github.com/gaomingqi/sam-body4d.
English
Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.