SAM-Body4D: Ricostrazione 4D della Mesh Corporea Umana da Video Senza Addestramento
SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos
December 9, 2025
Autori: Mingqi Gao, Yunqi Miao, Jungong Han
cs.AI
Abstract
Il recupero della mesh umana (HMR) mira a ricostruire la posa e la forma umana 3D a partire da osservazioni 2D ed è fondamentale per la comprensione centrata sull'uomo in scenari reali. Sebbene i recenti metodi HMR basati su immagini, come SAM 3D Body, raggiungano una forte robustezza su immagini in-the-wild, essi si basano su inferenze per fotogramma quando applicati a video, portando a incoerenza temporale e prestazioni degradate in caso di occlusioni. Affrontiamo questi problemi senza addestramento aggiuntivo sfruttando l'inerente continuità umana nei video. Proponiamo SAM-Body4D, un framework senza addestramento per HMR temporalmente coerente e robusto alle occlusioni da video. Inizialmente generiamo maschere consistenti per identità utilizzando un modello di segmentazione video promptabile, per poi affinarle con un modulo di Consapevolezza dell'Occlusione (Occlusion-Aware) per recuperare le regioni mancanti. Le maschere raffinate guidano SAM 3D Body a produrre traiettorie di mesh corporee complete e consistenti, mentre una strategia parallela basata sul padding consente un'inferenza efficiente per più persone. I risultati sperimentali dimostrano che SAM-Body4D raggiunge una stabilità temporale e una robustezza migliorate in video in-the-wild impegnativi, senza alcuna ri-addestramento. Il nostro codice e la demo sono disponibili al seguente indirizzo: https://github.com/gaomingqi/sam-body4d.
English
Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.