EgoZero: Aprendizado de Robôs com Óculos Inteligentes
EgoZero: Robot Learning from Smart Glasses
May 26, 2025
Autores: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
cs.AI
Resumo
Apesar dos recentes avanços na robótica de propósito geral, as políticas de robôs ainda estão muito aquém das capacidades humanas básicas no mundo real. Os seres humanos interagem constantemente com o mundo físico, mas esse rico recurso de dados permanece amplamente subutilizado no aprendizado de robôs. Propomos o EgoZero, um sistema minimalista que aprende políticas robustas de manipulação a partir de demonstrações humanas capturadas com os óculos inteligentes Project Aria, sem utilizar dados de robôs. O EgoZero permite: (1) a extração de ações completas e executáveis por robôs a partir de demonstrações humanas egocêntricas e em ambientes reais, (2) a compressão de observações visuais humanas em representações de estado agnósticas à morfologia, e (3) o aprendizado de políticas em malha fechada que generalizam morfologicamente, espacialmente e semanticamente. Implantamos as políticas do EgoZero em um robô Franka Panda com garra e demonstramos transferência zero-shot com uma taxa de sucesso de 70% em 7 tarefas de manipulação, utilizando apenas 20 minutos de coleta de dados por tarefa. Nossos resultados sugerem que os dados humanos capturados em ambientes reais podem servir como uma base escalável para o aprendizado de robôs no mundo real - abrindo caminho para um futuro de dados de treinamento abundantes, diversos e naturalistas para robôs. O código e vídeos estão disponíveis em https://egozero-robot.github.io.
English
Despite recent progress in general purpose robotics, robot policies still lag
far behind basic human capabilities in the real world. Humans interact
constantly with the physical world, yet this rich data resource remains largely
untapped in robot learning. We propose EgoZero, a minimal system that learns
robust manipulation policies from human demonstrations captured with Project
Aria smart glasses, and zero robot data. EgoZero enables: (1)
extraction of complete, robot-executable actions from in-the-wild, egocentric,
human demonstrations, (2) compression of human visual observations into
morphology-agnostic state representations, and (3) closed-loop policy learning
that generalizes morphologically, spatially, and semantically. We deploy
EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot
transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of
data collection per task. Our results suggest that in-the-wild human data can
serve as a scalable foundation for real-world robot learning - paving the way
toward a future of abundant, diverse, and naturalistic training data for
robots. Code and videos are available at https://egozero-robot.github.io.