ChatPaper.aiChatPaper

EgoZero: Robotisches Lernen mit Smart Glasses

EgoZero: Robot Learning from Smart Glasses

May 26, 2025
Autoren: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
cs.AI

Zusammenfassung

Trotz jüngster Fortschritte in der allgemeinen Robotik hinken Roboterrichtlinien immer noch weit hinter den grundlegenden menschlichen Fähigkeiten in der realen Welt zurück. Menschen interagieren ständig mit der physischen Welt, doch diese reichhaltige Datenquelle bleibt in der Robotik weitgehend ungenutzt. Wir schlagen EgoZero vor, ein minimales System, das robuste Manipulationsrichtlinien aus menschlichen Demonstrationen lernt, die mit den Project Aria Smart Glasses aufgezeichnet wurden, und ohne Roboter-Daten. EgoZero ermöglicht: (1) die Extraktion vollständiger, roboterausführbarer Aktionen aus wilden, egozentrischen menschlichen Demonstrationen, (2) die Komprimierung menschlicher visueller Beobachtungen in morphologie-agnostische Zustandsdarstellungen und (3) das Lernen von geschlossenen Regelkreisen, die morphologisch, räumlich und semantisch generalisieren. Wir setzen EgoZero-Richtlinien auf einem Greifarm-Roboter Franka Panda ein und demonstrieren einen Null-Shot-Transfer mit einer Erfolgsrate von 70 % über 7 Manipulationsaufgaben und nur 20 Minuten Datenerfassung pro Aufgabe. Unsere Ergebnisse deuten darauf hin, dass menschliche Daten aus der realen Welt als skalierbare Grundlage für das Lernen von Robotern in der realen Welt dienen können – und den Weg für eine Zukunft mit reichlich, vielfältigen und naturalistischen Trainingsdaten für Roboter ebnen. Code und Videos sind unter https://egozero-robot.github.io verfügbar.
English
Despite recent progress in general purpose robotics, robot policies still lag far behind basic human capabilities in the real world. Humans interact constantly with the physical world, yet this rich data resource remains largely untapped in robot learning. We propose EgoZero, a minimal system that learns robust manipulation policies from human demonstrations captured with Project Aria smart glasses, and zero robot data. EgoZero enables: (1) extraction of complete, robot-executable actions from in-the-wild, egocentric, human demonstrations, (2) compression of human visual observations into morphology-agnostic state representations, and (3) closed-loop policy learning that generalizes morphologically, spatially, and semantically. We deploy EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of data collection per task. Our results suggest that in-the-wild human data can serve as a scalable foundation for real-world robot learning - paving the way toward a future of abundant, diverse, and naturalistic training data for robots. Code and videos are available at https://egozero-robot.github.io.

Summary

AI-Generated Summary

PDF11May 27, 2025