EgoZero: Aprendizaje Robótico a partir de Gafas Inteligentes
EgoZero: Robot Learning from Smart Glasses
May 26, 2025
Autores: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
cs.AI
Resumen
A pesar de los avances recientes en robótica de propósito general, las políticas de los robots aún están muy por detrás de las capacidades humanas básicas en el mundo real. Los humanos interactúan constantemente con el mundo físico, sin embargo, esta rica fuente de datos sigue siendo en gran medida desaprovechada en el aprendizaje de robots. Proponemos EgoZero, un sistema mínimo que aprende políticas de manipulación robustas a partir de demostraciones humanas capturadas con las gafas inteligentes Project Aria, y sin datos de robots. EgoZero permite: (1) la extracción de acciones completas y ejecutables por robots a partir de demostraciones humanas egocéntricas en entornos naturales, (2) la compresión de observaciones visuales humanas en representaciones de estado independientes de la morfología, y (3) el aprendizaje de políticas en bucle cerrado que generalizan morfológica, espacial y semánticamente. Implementamos las políticas de EgoZero en un robot Franka Panda con pinza y demostramos una transferencia de cero disparos con una tasa de éxito del 70% en 7 tareas de manipulación y solo 20 minutos de recopilación de datos por tarea. Nuestros resultados sugieren que los datos humanos capturados en entornos naturales pueden servir como una base escalable para el aprendizaje de robots en el mundo real, allanando el camino hacia un futuro de datos de entrenamiento abundantes, diversos y naturalistas para robots. El código y los videos están disponibles en https://egozero-robot.github.io.
English
Despite recent progress in general purpose robotics, robot policies still lag
far behind basic human capabilities in the real world. Humans interact
constantly with the physical world, yet this rich data resource remains largely
untapped in robot learning. We propose EgoZero, a minimal system that learns
robust manipulation policies from human demonstrations captured with Project
Aria smart glasses, and zero robot data. EgoZero enables: (1)
extraction of complete, robot-executable actions from in-the-wild, egocentric,
human demonstrations, (2) compression of human visual observations into
morphology-agnostic state representations, and (3) closed-loop policy learning
that generalizes morphologically, spatially, and semantically. We deploy
EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot
transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of
data collection per task. Our results suggest that in-the-wild human data can
serve as a scalable foundation for real-world robot learning - paving the way
toward a future of abundant, diverse, and naturalistic training data for
robots. Code and videos are available at https://egozero-robot.github.io.Summary
AI-Generated Summary