EgoHumanoid: 로봇 없이 이고센트릭 데모로 구현하는 실외 환경 로코-매니퓰레이션
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
February 10, 2026
저자: Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen
cs.AI
초록
사람의 데모는 풍부한 환경 다양성을 제공하고 자연스럽게 규모를 확장할 수 있어 로봇 원격 조작에 대한 매력적인 대안이 됩니다. 이러한 패러다임은 로봇 암 매니퓰레이션을 발전시켰으나, 더 어렵고 데이터가 많이 필요한 휴머노이드 이동-매니퓰레이션 문제에 대한 잠재력은 대부분 탐구되지 않았습니다. 우리는 풍부한 에고센트릭 인간 데모와 제한된 양의 로봇 데이터를 함께 사용하여 비전-언어-행동 정책을 공동 학습하는 최초의 프레임워크인 EgoHumanoid를 소개합니다. 이를 통해 휴머노이드가 다양한 실제 환경에서 이동-매니퓰레이션을 수행할 수 있게 됩니다. 물리적 형태와 시점의 차이를 포함한 인간과 로봇 간의 구현 차이를 해결하기 위해, 우리는 하드웨어 설계부터 데이터 처리에 이르는 체계적인 정렬 파이프라인을 도입합니다. 확장 가능한 인간 데이터 수집을 위한 휴대용 시스템을 개발하고, 전이 가능성을 향상시키기 위한 실용적인 수집 프로토콜을 확립합니다. 우리의 인간-휴머노이드 정렬 파이프라인의 핵심에는 두 가지 주요 구성 요소가 있습니다. 시점 정렬은 카메라 높이와 시각 변화로 인한 시각 영역 차이를 줄입니다. 행동 정렬은 인간의 동작을 휴머노이드 제어를 위해 운동학적으로 실현 가능한 통합 행동 공간으로 매핑합니다. 광범위한 실제 환경 실험을 통해 로봇 데이터가 없는 에고센트릭 데이터를 통합하면 로봇 데이터만 사용한 기준선보다 특히 보지 않은 환경에서 51% 우수한 성능을 보임을 입증합니다. 우리의 분석은 어떤 행동이 효과적으로 전이되는지와 인간 데이터 확장의 잠재력을 추가로 보여줍니다.
English
Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.