EgoHumanoid : Libérer la locomotion-manipulation en conditions réelles grâce à la démonstration égocentrique sans robot
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
February 10, 2026
papers.authors: Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen
cs.AI
papers.abstract
Les démonstrations humaines offrent une riche diversité environnementale et une mise à l'échelle naturelle, ce qui en fait une alternative attrayante à la téléopération robotique. Bien que ce paradigme ait fait progresser la manipulation par bras robotique, son potentiel pour le problème plus complexe et gourmand en données de la loco-manipulation humanoïde reste largement inexploré. Nous présentons EgoHumanoid, le premier cadre permettant de co-entraîner une politique vision-langage-action en utilisant d'abondantes démonstrations humaines égocentriques conjointement avec une quantité limitée de données robotiques, permettant aux humanoïdes d'effectuer de la loco-manipulation dans divers environnements réels. Pour combler le fossé d'incarnation entre les humains et les robots, incluant les différences de morphologie physique et de point de vue, nous introduisons un pipeline d'alignement systématique couvrant de la conception matérielle au traitement des données. Un système portable pour la collecte évolutive de données humaines est développé, et nous établissons des protocoles de collecte pratiques pour améliorer la transférabilité. Au cœur de notre pipeline d'alignement humain-humanoïde se trouvent deux composants clés. L'alignement de vue réduit les écarts de domaine visuel causés par la variation de la hauteur de la caméra et de la perspective. L'alignement d'action mappe les mouvements humains dans un espace d'action unifié et cinématiquement réalisable pour le contrôle humanoïde. Des expériences approfondies en conditions réelles démontrent que l'intégration de données égocentriques sans robot surpasse significativement les lignes de base utilisant uniquement des données robotiques de 51 %, en particulier dans des environnements non vus. Notre analyse révèle en outre quels comportements se transfèrent efficacement et le potentiel de mise à l'échelle des données humaines.
English
Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.