EmbodMocap: Reconstrucción 4D de Persona-Escenario en Entornos Naturales para Agentes Corporizados

Resumen

Las conductas humanas en el mundo real codifican naturalmente información contextual rica y de largo plazo que puede aprovecharse para entrenar agentes corporeizados en percepción, comprensión y acción. Sin embargo, los sistemas de captura existentes suelen depender de costosas configuraciones de estudio y dispositivos portátiles, lo que limita la recolección a gran escala de datos de movimiento humano condicionados por la escena en entornos naturales. Para abordar este problema, proponemos EmbodMocap, un sistema portátil y asequible de captura de datos que utiliza dos iPhones en movimiento. Nuestra idea clave es calibrar conjuntamente secuencias duales RGB-D para reconstruir tanto a los humanos como a las escenas dentro de un marco de coordenadas mundial métrico unificado. El método propuesto permite una captura a escala métrica y consistente con la escena en entornos cotidianos, sin necesidad de cámaras estáticas o marcadores, integrando perfectamente el movimiento humano y la geometría de la escena. En comparación con la verdad de terreno de captura óptica, demostramos que la configuración de doble vista exhibe una capacidad notable para mitigar la ambigüedad de profundidad, logrando una alineación y un rendimiento de reconstrucción superiores a los modelos de un solo iPhone o monoculares. Basándonos en los datos recopilados, potenciamos tres tareas de IA corporeizada: la reconstrucción monocular humano-escena, donde ajustamos modelos de retroalimentación que producen humanos y escenas alineados en el espacio mundial y a escala métrica; la animación de personajes basada en física, donde demostramos que nuestros datos pueden usarse para escalar habilidades de interacción humano-objeto y el seguimiento de movimiento consciente de la escena; y el control de movimiento de robots, donde entrenamos un robot humanoide mediante aprendizaje por refuerzo de simulación a realidad para replicar movimientos humanos representados en videos. Los resultados experimentales validan la efectividad de nuestro sistema y sus contribuciones al avance de la investigación en IA corporeizada.

English

Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.

EmbodMocap: Reconstrucción 4D de Persona-Escenario en Entornos Naturales para Agentes Corporizados

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Resumen

Support