ChatPaper.aiChatPaper

SAM-Body4D: Trainingsfreie 4D-Körpernetz-Rekonstruktion aus Videos

SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos

December 9, 2025
papers.authors: Mingqi Gao, Yunqi Miao, Jungong Han
cs.AI

papers.abstract

Human Mesh Recovery (HMR) zielt darauf ab, 3D-Posen und -Körperformen aus 2D-Beobachtungen zu rekonstruieren und ist grundlegend für das menschenzentrierte Verständnis in realen Szenarien. Während aktuelle bildbasierte HMR-Methoden wie SAM 3D Body eine hohe Robustheit bei Aufnahmen aus unkontrollierten Umgebungen erreichen, basieren sie auf Einzelbild-Inferenz bei der Anwendung auf Videos, was zu zeitlicher Inkonsistenz und Leistungseinbußen bei Verdeckungen führt. Wir adressieren diese Probleme ohne zusätzliches Training durch Nutzung der inherenten menschlichen Kontinuität in Videos. Wir präsentieren SAM-Body4D, ein trainingsfreies Framework für zeitlich konsistente und verdeckungsrobuste HMR aus Videos. Wir generieren zunächst identitätskonsistente Masklets mit einem promptfähigen Video-Segmentierungsmodell und verfeinern diese mit einem Okklusionsbewussten Modul, um fehlende Regionen wiederherzustellen. Die verfeinerten Masklets steuern SAM 3D Body an, um konsistente Ganzkörper-Mesh-Trajektorien zu erzeugen, während eine padding-basierte Parallelisierungsstrategie eine effiziente Multi-Personen-Inferenz ermöglicht. Experimentelle Ergebnisse demonstrieren, dass SAM-Body4D verbesserte zeitliche Stabilität und Robustheit in anspruchsvollen In-the-Wild-Videos erreicht, ohne jegliches Neutraining. Unser Code und Demo sind verfügbar unter: https://github.com/gaomingqi/sam-body4d.
English
Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.
PDF12December 11, 2025