EmbodMocap:身体化エージェントのための実環境4D人間・シーン再構築
EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents
February 26, 2026
著者: Wenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura
cs.AI
要旨
現実世界における人間の行動は、知覚・理解・行動のための具身化エージェントを訓練するために活用可能な、豊富で長期的な文脈情報を自然に符号化する。しかし、既存のモーションキャプチャシステムは、高価なスタジオ設備やウェアラブルデバイスに依存することが一般的であり、日常環境におけるシーン条件付き人間動作データの大規模収集を制限している。この問題を解決するため、我々は2台の移動可能なiPhoneを用いた、携帯性に優れ低コストなデータ収集パイプライン「EmbodMocap」を提案する。本手法の中核は、デュアルRGB-Dシーケンスを共同較正し、人間とシーンを統一されたメートル法世界座標系内で再構築する点にある。提案手法は、固定カメラやマーカーを必要とせず、日常環境におけるメートルスケールかつシーン整合性のあるキャプチャを可能とし、人間の動作とシーン幾何学をシームレスに統合する。光学式キャプチャのグラウンドトゥルースとの比較により、デュアルビュー設定が深度曖昧性を軽減する顕著な能力を有し、単一iPhoneや単眼モデルを上回るアライメントと再構築性能を達成することを実証する。収集したデータに基づき、我々は3つの具身化AIタスクへの応用を示す:フィードフォワードモデルを微調整し、メートルスケールで世界座標に位置合わせされた人間とシーンを出力する単眼人間-シーン再構築、物体操作スキルとシーンを考慮した動作追跡の学習を拡大できることを実証する物理ベースキャラクターアニメーション、およびシミュレーションto現実実世界強化学習によりヒューマノイドロボットを訓練し、映像に描かれた人間の動作を再現するロボット動作制御である。実験結果は、本パイプラインの有効性と、具身化AI研究の進展に対する貢献を裏付けている。
English
Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.