ChatPaper.aiChatPaper

SAM-Body4D: 学習不要の動画からの4次元人体メッシュ復元

SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos

December 9, 2025
著者: Mingqi Gao, Yunqi Miao, Jungong Han
cs.AI

要旨

Human Mesh Recovery (HMR) は、2次元観測データから3次元人体姿勢と形状を復元することを目的とし、実世界シナリオにおける人間中心の理解の基盤となる技術である。SAM 3D Bodyに代表される近年の画像ベースHMR手法は、実写画像に対する高い頑健性を実現しているが、動画に適用する際はフレーム単位の推論に依存するため、時間的な不一致や遮蔽下での性能劣化が生じる。本研究では、追加の学習を必要とせず、動画が持つ人間の連続性に着目してこれらの課題に取り組む。訓練不要な枠組みであるSAM-Body4Dを提案し、動画からの時間的に一貫性があり遮蔽に頑健なHMRを実現する。まず、プロンプト可能な動画セグメンテーションモデルを用いてアイデンティティに一貫したマスクレットを生成し、Occlusion-Awareモジュールで精密化して欠損領域を復元する。精密化されたマスクレットがSAM 3D Bodyを誘導し、一貫性のある全身メッシュ軌跡を生成する。さらに、パディングに基づく並列化戦略により効率的な多人推論を可能にする。実験結果から、SAM-Body4Dが再学習を一切行わずに、困難な実写動画において時間的安定性と頑健性の向上を達成することを示す。コードとデモはhttps://github.com/gaomingqi/sam-body4dで公開している。
English
Human Mesh Recovery (HMR) aims to reconstruct 3D human pose and shape from 2D observations and is fundamental to human-centric understanding in real-world scenarios. While recent image-based HMR methods such as SAM 3D Body achieve strong robustness on in-the-wild images, they rely on per-frame inference when applied to videos, leading to temporal inconsistency and degraded performance under occlusions. We address these issues without extra training by leveraging the inherent human continuity in videos. We propose SAM-Body4D, a training-free framework for temporally consistent and occlusion-robust HMR from videos. We first generate identity-consistent masklets using a promptable video segmentation model, then refine them with an Occlusion-Aware module to recover missing regions. The refined masklets guide SAM 3D Body to produce consistent full-body mesh trajectories, while a padding-based parallel strategy enables efficient multi-human inference. Experimental results demonstrate that SAM-Body4D achieves improved temporal stability and robustness in challenging in-the-wild videos, without any retraining. Our code and demo are available at: https://github.com/gaomingqi/sam-body4d.
PDF12December 11, 2025