EmbodMocap: Reconstrução 4D Pessoa-Cena em Ambiente Natural para Agentes Corporificados

Resumo

Os comportamentos humanos no mundo real codificam naturalmente informações contextuais ricas e de longo prazo que podem ser aproveitadas para treinar agentes corporificados para percepção, compreensão e ação. No entanto, os sistemas de captura existentes geralmente dependem de configurações de estúdio dispendiosas e dispositivos vestíveis, limitando a coleta em larga escala de dados de movimento humano condicionados à cena em ambientes naturais. Para resolver isso, propomos o EmbodMocap, um pipeline de coleta de dados portátil e acessível que utiliza dois iPhones em movimento. Nossa ideia principal é calibrar conjuntamente sequências duplas de RGB-D para reconstruir tanto humanos quanto cenários dentro de um sistema de coordenadas mundial métrico unificado. O método proposto permite a captura em escala métrica e consistente com a cena em ambientes cotidianos, sem a necessidade de câmeras estáticas ou marcadores, integrando perfeitamente o movimento humano e a geometria da cena. Em comparação com a verdade terrestre de captura óptica, demonstramos que a configuração de visão dupla exibe uma capacidade notável de mitigar a ambiguidade de profundidade, alcançando um alinhamento e desempenho de reconstrução superiores aos modelos de iPhone único ou monoculares. Com base nos dados coletados, capacitamos três tarefas de IA corporificada: reconstrução monocular humano-cenário, na qual afinamos modelos *feedforward* que produzem humanos e cenários alinhados no espaço mundial em escala métrica; animação de personagens baseada em física, onde provamos que nossos dados podem ser usados para escalar habilidades de interação humano-objeto e rastreamento de movimento consciente do cenário; e controle de movimento robótico, onde treinamos um robô humanóide via RL *sim-to-real* para replicar movimentos humanos retratados em vídeos. Os resultados experimentais validam a eficácia do nosso *pipeline* e suas contribuições para o avanço da pesquisa em IA corporificada.

English

Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.

EmbodMocap: Reconstrução 4D Pessoa-Cena em Ambiente Natural para Agentes Corporificados

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Resumo

Support