ChatPaper.aiChatPaper

EgoHumanoid:ロボット不要のエゴセントリック実演による実環境移動操作の実現

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

February 10, 2026
著者: Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen
cs.AI

要旨

人間による実演は、環境的多様性に富み、自然にスケールするため、ロボット遠隔操作に代わる魅力的な選択肢である。このパラダイムはロボットアームのマニピュレーションを進歩させてきたが、より困難でデータを大量に必要とするヒューマノイドの移動把持問題への応用可能性は、ほとんど未開拓のままであった。本研究では、豊富なエゴセントリック(一人称視点)な人間の実演データと限られた量のロボットデータを併用して視覚-言語-行動ポリシーを共同訓練し、ヒューマノイドが多様な実世界環境で移動把持を実行することを可能にする、初のフレームワーク「EgoHumanoid」を提案する。物理形態や視点の相違を含む、人間とロボットの間の身体性のギャップを埋めるため、ハードウェア設計からデータ処理に至る体系的なアライメント手法を導入する。スケーラブルな人間データ収集のためのポータブルシステムを開発し、転移性を向上させる実用的な収集プロトコルを確立した。人間からヒューマノイドへのアライメント手法の中核は、二つの主要コンポーネントからなる。視点アライメントは、カメラの高さや視点の変動に起因する視覚領域の不一致を軽減する。行動アライメントは、人間の動作をヒューマノイド制御のための、統一的で運動学的に実現可能な行動空間に写像する。大規模な実世界実験により、ロボットデータを使用しないエゴセントリックデータの統合が、特に未経験環境において、ロボットデータのみのベースラインを51%大幅に上回る性能を発揮することを実証した。分析により、どの行動が効果的に転移するか、および人間データのスケーリング可能性がさらに明らかとなった。
English
Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.
PDF131February 14, 2026