EgoZero: Robotisches Lernen mit Smart Glasses
EgoZero: Robot Learning from Smart Glasses
May 26, 2025
Autoren: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
cs.AI
Zusammenfassung
Trotz jüngster Fortschritte in der allgemeinen Robotik hinken Roboterrichtlinien immer noch weit hinter den grundlegenden menschlichen Fähigkeiten in der realen Welt zurück. Menschen interagieren ständig mit der physischen Welt, doch diese reichhaltige Datenquelle bleibt in der Robotik weitgehend ungenutzt. Wir schlagen EgoZero vor, ein minimales System, das robuste Manipulationsrichtlinien aus menschlichen Demonstrationen lernt, die mit den Project Aria Smart Glasses aufgezeichnet wurden, und ohne Roboter-Daten. EgoZero ermöglicht: (1) die Extraktion vollständiger, roboterausführbarer Aktionen aus wilden, egozentrischen menschlichen Demonstrationen, (2) die Komprimierung menschlicher visueller Beobachtungen in morphologie-agnostische Zustandsdarstellungen und (3) das Lernen von geschlossenen Regelkreisen, die morphologisch, räumlich und semantisch generalisieren. Wir setzen EgoZero-Richtlinien auf einem Greifarm-Roboter Franka Panda ein und demonstrieren einen Null-Shot-Transfer mit einer Erfolgsrate von 70 % über 7 Manipulationsaufgaben und nur 20 Minuten Datenerfassung pro Aufgabe. Unsere Ergebnisse deuten darauf hin, dass menschliche Daten aus der realen Welt als skalierbare Grundlage für das Lernen von Robotern in der realen Welt dienen können – und den Weg für eine Zukunft mit reichlich, vielfältigen und naturalistischen Trainingsdaten für Roboter ebnen. Code und Videos sind unter https://egozero-robot.github.io verfügbar.
English
Despite recent progress in general purpose robotics, robot policies still lag
far behind basic human capabilities in the real world. Humans interact
constantly with the physical world, yet this rich data resource remains largely
untapped in robot learning. We propose EgoZero, a minimal system that learns
robust manipulation policies from human demonstrations captured with Project
Aria smart glasses, and zero robot data. EgoZero enables: (1)
extraction of complete, robot-executable actions from in-the-wild, egocentric,
human demonstrations, (2) compression of human visual observations into
morphology-agnostic state representations, and (3) closed-loop policy learning
that generalizes morphologically, spatially, and semantically. We deploy
EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot
transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of
data collection per task. Our results suggest that in-the-wild human data can
serve as a scalable foundation for real-world robot learning - paving the way
toward a future of abundant, diverse, and naturalistic training data for
robots. Code and videos are available at https://egozero-robot.github.io.Summary
AI-Generated Summary