EgoHumanoid: Sbloccare la Loco-Manipolazione in Ambiente Reale con Dimostrazioni Egocentriche Senza Robot

Abstract

Le dimostrazioni umane offrono un'ampia diversità ambientale e si scalano naturalmente, rappresentando un'alternativa attraente alla teleoperazione robotica. Sebbene questo paradigma abbia fatto progredire la manipolazione con bracci robotici, il suo potenziale per il problema più impegnativo e avido di dati della loco-manipolazione umanoide rimane in gran parte inesplorato. Presentiamo EgoHumanoid, il primo framework in grado di addestrare congiuntamente una politica visione-linguaggio-azione utilizzando abbondanti dimostrazioni umane egocentriche insieme a una quantità limitata di dati robotici, consentendo agli umanoidi di eseguire loco-manipolazione in vari ambienti del mondo reale. Per colmare il divario di embodiment tra umani e robot, incluse le discrepanze nella morfologia fisica e nel punto di vista, introduciamo una pipeline di allineamento sistematica che spazia dalla progettazione hardware all'elaborazione dei dati. Viene sviluppato un sistema portatile per la raccolta scalabile di dati umani e stabiliamo protocolli di raccolta pratici per migliorare la trasferibilità. Al centro della nostra pipeline di allineamento da umano a umanoide risiedono due componenti chiave. L'allineamento visivo riduce le discrepanze di dominio visivo causate dall'altezza della telecamera e dalla variazione prospettica. L'allineamento d'azione mappa i movimenti umani in uno spazio d'azione unificato e cinematicamente fattibile per il controllo umanoide. Esperimenti estensivi nel mondo reale dimostrano che l'incorporazione di dati egocentrici senza robot supera significativamente i baseline solo-robot del 51%, particolarmente in ambienti non visti. La nostra analisi rivela inoltre quali comportamenti si trasferiscono efficacemente e il potenziale di scalabilità dei dati umani.

English

Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.

EgoHumanoid: Sbloccare la Loco-Manipolazione in Ambiente Reale con Dimostrazioni Egocentriche Senza Robot

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Abstract

Support