SAM-Body4D: Беспоисковое восстановление 4D-меша человеческого тела из видеозаписей
SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos
December 9, 2025
Авторы: Mingqi Gao, Yunqi Miao, Jungong Han
cs.AI
Аннотация
Восстановление человеческой меши (HMR) направлено на реконструкцию 3D позы и формы человека из 2D наблюдений и является основой для человеко-ориентированного понимания в реальных сценариях. В то время как современные методы HMR на основе изображений, такие как SAM 3D Body, демонстрируют высокую устойчивость на изображениях из неконтролируемой среды, они полагаются на покадровый вывод при применении к видео, что приводит к временной несогласованности и ухудшению производительности при окклюзиях. Мы решаем эти проблемы без дополнительного обучения, используя присущую видео непрерывность человеческого движения. Мы предлагаем SAM-Body4D, бесплатную от обучения систему для временно согласованного и устойчивого к окклюзиям HMR из видео. Сначала мы генерируем идентично-согласованные маскилеты с помощью модели сегментации видео с поддержкой промптов, затем улучшаем их с помощью модуля Occlusion-Aware для восстановления потерянных областей. Улучшенные маскилеты направляют SAM 3D Body для создания согласованных траекторий полномасштабной меши, в то время как стратегия на основе паддинга позволяет осуществлять эффективный вывод для нескольких людей. Результаты экспериментов показывают, что SAM-Body4D достигает повышенной временной стабильности и устойчивости в сложных видео из неконтролируемой среды без какого-либо переобучения. Наш код и демо доступны по адресу: https://github.com/gaomingqi/sam-body4d.
English
Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.