EmbodMocap: 체화 에이전트를 위한 실제 환경 4D 인간-장면 복원
EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents
February 26, 2026
저자: Wenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura
cs.AI
초록
실제 세계에서의 인간 행동은 인식, 이해 및 행동을 위한 구체화 에이전트를 훈련하는 데 활용될 수 있는 풍부한 장기 문맥 정보를 자연스럽게 인코딩합니다. 그러나 기존의 동작 캡처 시스템은 일반적으로 고가의 스튜디오 설정과 웨어러블 장치에 의존하여, 자연 환경에서의 대규모 장면 조건 인간 동작 데이터 수집을 제한합니다. 이를 해결하기 위해 우리는 두 대의 이동식 아이폰을 사용하는 휴대성 있고 경제적인 데이터 수집 파이프라인인 EmbodMocap을 제안합니다. 우리의 핵심 아이디어는 이중 RGB-D 시퀀스를 공동 보정하여 인간과 장면을 통합된 미터법 세계 좌표계 내에서 재구성하는 것입니다. 제안된 방법은 고정 카메라나 마커 없이 일상 환경에서 미터법 규모 및 장면 일관성 캡처를 가능하게 하여 인간 동작과 장면 기하학을 원활하게 연결합니다. 광학 캡처 기준값과 비교하여, 우리는 이중 뷰 설정이 깊이 모호성을 현저히 완화하는 뛰어난 능력을 보여 단일 아이폰 또는 단안 모델보다 우수한 정렬 및 재구성 성능을 달성함을 입증합니다. 수집된 데이터를 기반으로 우리는 세 가지 구체화 AI 작업을 구현합니다: 미터법 규모의 세계 좌표계 정렬 인간과 장면을 출력하는 피드포워드 모델을 미세 조정하는 단안 인간-장면 재구성; 우리 데이터가 인간-객체 상호작용 기술과 장면 인식 동작 추적을 확장하는 데 사용될 수 있음을 입증하는 물리 기반 캐릭터 애니메이션; 그리고 시뮬레이션-실물 강화학습을 통해 휴머노이드 로봇이 비디오에 묘사된 인간 동작을 재현하도록 훈련시키는 로봇 동작 제어입니다. 실험 결과는 우리 파이프라인의 효과성과 구체화 AI 연구 발전에 대한 기여를 검증합니다.
English
Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.