EgoZero: Robotleren via slimme brillen
EgoZero: Robot Learning from Smart Glasses
May 26, 2025
Auteurs: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
cs.AI
Samenvatting
Ondanks recente vooruitgang in algemene robotica, blijven robotbeleidsregels ver achter bij basale menselijke vaardigheden in de echte wereld. Mensen interageren voortdurend met de fysieke wereld, maar deze rijke databron blijft grotendeels onbenut in robotleren. Wij stellen EgoZero voor, een minimaal systeem dat robuuste manipulatietaken leert uit menselijke demonstraties die zijn vastgelegd met Project Aria slimme brillen, en zonder robotdata. EgoZero maakt het mogelijk: (1) extractie van complete, door robots uitvoerbare acties uit in-the-wild, egocentrische menselijke demonstraties, (2) compressie van menselijke visuele waarnemingen in morfologie-agnostische toestandsrepresentaties, en (3) gesloten-lus beleidsleren dat morfologisch, ruimtelijk en semantisch generaliseert. We implementeren EgoZero-beleidsregels op een grijper Franka Panda robot en demonstreren zero-shot transfer met een slagingspercentage van 70% over 7 manipulatietaken en slechts 20 minuten dataverzameling per taak. Onze resultaten suggereren dat in-the-wild menselijke data kan dienen als een schaalbare basis voor robotleren in de echte wereld - wat de weg effent naar een toekomst van overvloedige, diverse en naturalistische trainingsdata voor robots. Code en video's zijn beschikbaar op https://egozero-robot.github.io.
English
Despite recent progress in general purpose robotics, robot policies still lag
far behind basic human capabilities in the real world. Humans interact
constantly with the physical world, yet this rich data resource remains largely
untapped in robot learning. We propose EgoZero, a minimal system that learns
robust manipulation policies from human demonstrations captured with Project
Aria smart glasses, and zero robot data. EgoZero enables: (1)
extraction of complete, robot-executable actions from in-the-wild, egocentric,
human demonstrations, (2) compression of human visual observations into
morphology-agnostic state representations, and (3) closed-loop policy learning
that generalizes morphologically, spatially, and semantically. We deploy
EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot
transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of
data collection per task. Our results suggest that in-the-wild human data can
serve as a scalable foundation for real-world robot learning - paving the way
toward a future of abundant, diverse, and naturalistic training data for
robots. Code and videos are available at https://egozero-robot.github.io.