ChatPaper.aiChatPaper

EgoZero: Aprendizado de Robôs com Óculos Inteligentes

EgoZero: Robot Learning from Smart Glasses

May 26, 2025
Autores: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
cs.AI

Resumo

Apesar dos recentes avanços na robótica de propósito geral, as políticas de robôs ainda estão muito aquém das capacidades humanas básicas no mundo real. Os seres humanos interagem constantemente com o mundo físico, mas esse rico recurso de dados permanece amplamente subutilizado no aprendizado de robôs. Propomos o EgoZero, um sistema minimalista que aprende políticas robustas de manipulação a partir de demonstrações humanas capturadas com os óculos inteligentes Project Aria, sem utilizar dados de robôs. O EgoZero permite: (1) a extração de ações completas e executáveis por robôs a partir de demonstrações humanas egocêntricas e em ambientes reais, (2) a compressão de observações visuais humanas em representações de estado agnósticas à morfologia, e (3) o aprendizado de políticas em malha fechada que generalizam morfologicamente, espacialmente e semanticamente. Implantamos as políticas do EgoZero em um robô Franka Panda com garra e demonstramos transferência zero-shot com uma taxa de sucesso de 70% em 7 tarefas de manipulação, utilizando apenas 20 minutos de coleta de dados por tarefa. Nossos resultados sugerem que os dados humanos capturados em ambientes reais podem servir como uma base escalável para o aprendizado de robôs no mundo real - abrindo caminho para um futuro de dados de treinamento abundantes, diversos e naturalistas para robôs. O código e vídeos estão disponíveis em https://egozero-robot.github.io.
English
Despite recent progress in general purpose robotics, robot policies still lag far behind basic human capabilities in the real world. Humans interact constantly with the physical world, yet this rich data resource remains largely untapped in robot learning. We propose EgoZero, a minimal system that learns robust manipulation policies from human demonstrations captured with Project Aria smart glasses, and zero robot data. EgoZero enables: (1) extraction of complete, robot-executable actions from in-the-wild, egocentric, human demonstrations, (2) compression of human visual observations into morphology-agnostic state representations, and (3) closed-loop policy learning that generalizes morphologically, spatially, and semantically. We deploy EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of data collection per task. Our results suggest that in-the-wild human data can serve as a scalable foundation for real-world robot learning - paving the way toward a future of abundant, diverse, and naturalistic training data for robots. Code and videos are available at https://egozero-robot.github.io.
PDF21December 16, 2025