EmbodMocap : Reconstruction 4D Humain-Scène en Environnement Réel pour Agents Incarnés

Résumé

Les comportements humains dans le monde réel encodent naturellement de riches informations contextuelles à long terme, exploitables pour entraîner des agents incarnés à percevoir, comprendre et agir. Cependant, les systèmes de capture existants reposent généralement sur des installations studio coûteuses et des dispositifs portables, limitant la collecte à grande échelle de données de mouvement humain conditionné par la scène en environnement naturel. Pour y remédier, nous proposons EmbodMocap, un pipeline portable et économique de collecte de données utilisant deux iPhones mobiles. Notre idée clé est d'étalonner conjointement des séquences RGB-D doubles pour reconstruire à la fois les humains et les scènes dans un système de coordonnées métriques mondial unifié. Cette méthode permet une capture à échelle métrique et cohérente avec la scène dans des environnements quotidiens, sans caméras statiques ni marqueurs, unissant ainsi parfaitement le mouvement humain et la géométrie de la scène. Par rapport à la vérité terrain de capture optique, nous démontrons que la configuration à double vue présente une capacité remarquable à atténuer l'ambiguïté de profondeur, obtenant une alignement et des performances de reconstruction supérieurs aux modèles monoculaires ou à iPhone unique. Sur la base des données collectées, nous alimentons trois tâches d'IA incarnée : la reconstruction humain-scène monoculaire, où nous affinons des modèles feedforward produisant des humains et des scènes alignés dans l'espace mondial à échelle métrique ; l'animation de personnages basée sur la physique, où nous prouvons que nos données peuvent servir à amplifier les compétences d'interaction humain-objet et le suivi de mouvement conscient de la scène ; et le contrôle de mouvement robotique, où nous entraînons un robot humanoïde par RL sim-to-real à reproduire les mouvements humains représentés dans des vidéos. Les résultats expérimentaux valident l'efficacité de notre pipeline et sa contribution à l'avancement de la recherche en IA incarnée.

English

Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.

EmbodMocap : Reconstruction 4D Humain-Scène en Environnement Réel pour Agents Incarnés

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Résumé

Support