EgoZero: Aprendizaje Robótico a partir de Gafas Inteligentes

Resumen

A pesar de los avances recientes en robótica de propósito general, las políticas de los robots aún están muy por detrás de las capacidades humanas básicas en el mundo real. Los humanos interactúan constantemente con el mundo físico, sin embargo, esta rica fuente de datos sigue siendo en gran medida desaprovechada en el aprendizaje de robots. Proponemos EgoZero, un sistema mínimo que aprende políticas de manipulación robustas a partir de demostraciones humanas capturadas con las gafas inteligentes Project Aria, y sin datos de robots. EgoZero permite: (1) la extracción de acciones completas y ejecutables por robots a partir de demostraciones humanas egocéntricas en entornos naturales, (2) la compresión de observaciones visuales humanas en representaciones de estado independientes de la morfología, y (3) el aprendizaje de políticas en bucle cerrado que generalizan morfológica, espacial y semánticamente. Implementamos las políticas de EgoZero en un robot Franka Panda con pinza y demostramos una transferencia de cero disparos con una tasa de éxito del 70% en 7 tareas de manipulación y solo 20 minutos de recopilación de datos por tarea. Nuestros resultados sugieren que los datos humanos capturados en entornos naturales pueden servir como una base escalable para el aprendizaje de robots en el mundo real, allanando el camino hacia un futuro de datos de entrenamiento abundantes, diversos y naturalistas para robots. El código y los videos están disponibles en https://egozero-robot.github.io.

English

Despite recent progress in general purpose robotics, robot policies still lag far behind basic human capabilities in the real world. Humans interact constantly with the physical world, yet this rich data resource remains largely untapped in robot learning. We propose EgoZero, a minimal system that learns robust manipulation policies from human demonstrations captured with Project Aria smart glasses, and zero robot data. EgoZero enables: (1) extraction of complete, robot-executable actions from in-the-wild, egocentric, human demonstrations, (2) compression of human visual observations into morphology-agnostic state representations, and (3) closed-loop policy learning that generalizes morphologically, spatially, and semantically. We deploy EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of data collection per task. Our results suggest that in-the-wild human data can serve as a scalable foundation for real-world robot learning - paving the way toward a future of abundant, diverse, and naturalistic training data for robots. Code and videos are available at https://egozero-robot.github.io.

EgoZero: Aprendizaje Robótico a partir de Gafas Inteligentes

EgoZero: Robot Learning from Smart Glasses

Resumen

Support