SAM-Body4D: Trainingsvrije 4D Menselijk Lichaamsmesh Herstel vanuit Video's
SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos
December 9, 2025
Auteurs: Mingqi Gao, Yunqi Miao, Jungong Han
cs.AI
Samenvatting
Human Mesh Recovery (HMR) heeft als doel 3D-menselijke poses en vormen te reconstrueren uit 2D-waarnemingen en is fundamenteel voor mensgerichte interpretatie in realistische scenario's. Hoewel recente op afbeeldingen gebaseerde HMR-methoden zoals SAM 3D Body een sterke robuustheid vertonen op beelden uit de praktijk, zijn ze afhankelijk van inference per frame wanneer ze op video's worden toegepast, wat leidt tot temporele inconsistentie en verminderde prestaties bij occlusies. Wij pakken deze problemen aan zonder extra training door gebruik te maken van de inherente menselijke continuïteit in video's. Wij stellen SAM-Body4D voor, een trainingsvrij raamwerk voor temporeel consistente en occlusiebestendige HMR uit video's. We genereren eerst identiteitsconsistente maskers met behulp van een promptbaar videosegmentatiemodel, en verfijnen deze vervolgens met een Occlusion-Aware module om ontbrekende gebieden te herstellen. De verfijnde maskers leiden SAM 3D Body om consistente volledige lichaamsmesh-trajecten te produceren, terwijl een op opvulling gebaseerde parallelle strategie efficiënte multi-menselijke inference mogelijk maakt. Experimentele resultaten tonen aan dat SAM-Body4D verbeterde temporele stabiliteit en robuustheid bereikt in uitdagende video's uit de praktijk, zonder enige hertraining. Onze code en demo zijn beschikbaar op: https://github.com/gaomingqi/sam-body4d.
English
Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.