EgoHumanoid: Loco-manipulatie in de praktijk ontsloten met robotvrije egocentrische demonstratie

Samenvatting

Menselijke demonstraties bieden een rijke omgevingsdiversiteit en schalen van nature, wat ze een aantrekkelijk alternatief maakt voor robotteleoperatie. Hoewel dit paradigma de manipulatie met robotarmen heeft verbeterd, blijft het potentieel voor het uitdagendere, data-hongerige probleem van humanoïde loco-manipulatie grotendeels onontgonnen. Wij presenteren EgoHumanoid, het eerste raamwerk dat een visie-taal-actie-beleid gezamenlijk traint met behulp van overvloedige egocentrische menselijke demonstraties samen met een beperkte hoeveelheid robotdata, waardoor humanoïden loco-manipulatie kunnen uitvoeren in diverse real-world omgevingen. Om de belichamingskloof tussen mens en robot te overbruggen, inclusief verschillen in fysieke morfologie en gezichtspunt, introduceren we een systematisch afstijgpipeline die reikt van hardware-ontwerp tot gegevensverwerking. Er wordt een draagbaar systeem ontwikkeld voor schaalbare menselijke gegevensverzameling, en we stellen praktische verzamelprotocollen op om de overdraagbaarheid te verbeteren. In de kern van onze mens-naar-humanoïde afstijgpipeline liggen twee belangrijke componenten. De view-alignment vermindert visuele domeinverschillen veroorzaakt door camerahoogte en perspectiefvariatie. De action-alignment vertaalt menselijke bewegingen naar een uniforme, kinematisch haalbare actieruimte voor humanoïde besturing. Uitgebreide experimenten in de echte wereld tonen aan dat het incorporeren van egocentrische data zonder robotinput de alleen-met-robot-baselines met 51% significant overtreft, vooral in onbekende omgevingen. Onze analyse laat verder zien welke gedragingen effectief overdraagbaar zijn en het potentieel voor het opschalen van menselijke data.

English

Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.

EgoHumanoid: Loco-manipulatie in de praktijk ontsloten met robotvrije egocentrische demonstratie

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Samenvatting

Support