ChatPaper.aiChatPaper

SAM-Body4D: Recuperación de Mallas Corporales Humanas 4D sin Entrenamiento a partir de Vídeos

SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos

December 9, 2025
Autores: Mingqi Gao, Yunqi Miao, Jungong Han
cs.AI

Resumen

La Recuperación de Mallas Humanas (HMR) tiene como objetivo reconstruir la pose y la forma humana en 3D a partir de observaciones en 2D, siendo fundamental para la comprensión centrada en el ser humano en escenarios del mundo real. Si bien métodos recientes de HMR basados en imágenes, como SAM 3D Body, logran una gran robustez en imágenes in-the-wild, dependen de la inferencia por fotograma cuando se aplican a videos, lo que genera inconsistencias temporales y un rendimiento degradado ante oclusiones. Abordamos estos problemas sin entrenamiento adicional aprovechando la continuidad humana inherente en los videos. Proponemos SAM-Body4D, un marco de trabajo que no requiere entrenamiento para obtener HMR temporalmente consistente y robusto a oclusiones a partir de videos. Primero generamos máscaras consistentes en identidad utilizando un modelo de segmentación de video promptable, luego las refinamos con un módulo Consciente de la Oclusión para recuperar las regiones faltantes. Las máscaras refinadas guían a SAM 3D Body para producir trayectorias de mallas corporales completas y consistentes, mientras que una estrategia paralela basada en padding permite una inferencia eficiente para múltiples personas. Los resultados experimentales demuestran que SAM-Body4D logra una estabilidad temporal y una robustez mejoradas en videos in-the-wild desafiantes, sin necesidad de reentrenamiento. Nuestro código y demo están disponibles en: https://github.com/gaomingqi/sam-body4d.
English
Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.
PDF12December 11, 2025