EgoZero: Обучение роботов с использованием умных очков
EgoZero: Robot Learning from Smart Glasses
May 26, 2025
Авторы: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
cs.AI
Аннотация
Несмотря на недавние достижения в области универсальной робототехники, политики роботов всё ещё значительно отстают от базовых возможностей человека в реальном мире. Люди постоянно взаимодействуют с физической средой, однако этот богатый источник данных остаётся в значительной степени неиспользованным в обучении роботов. Мы предлагаем EgoZero — минималистичную систему, которая обучает устойчивые политики манипуляции на основе демонстраций человека, записанных с помощью умных очков Project Aria, и без использования данных от роботов. EgoZero позволяет: (1) извлекать полные, исполняемые роботом действия из демонстраций человека, снятых в естественных условиях с эгоцентрической перспективы, (2) сжимать визуальные наблюдения человека в представления состояний, независимые от морфологии, и (3) обучать замкнутые политики, которые обобщаются морфологически, пространственно и семантически. Мы внедряем политики EgoZero на роботе-манипуляторе Franka Panda и демонстрируем передачу навыков без предварительного обучения с успешностью 70% в 7 задачах манипуляции, при этом сбор данных для каждой задачи занимает всего 20 минут. Наши результаты показывают, что данные, полученные от человека в естественных условиях, могут служить масштабируемой основой для обучения роботов в реальном мире, прокладывая путь к будущему с изобилием разнообразных и естественных данных для обучения роботов. Код и видеоматериалы доступны по адресу https://egozero-robot.github.io.
English
Despite recent progress in general purpose robotics, robot policies still lag
far behind basic human capabilities in the real world. Humans interact
constantly with the physical world, yet this rich data resource remains largely
untapped in robot learning. We propose EgoZero, a minimal system that learns
robust manipulation policies from human demonstrations captured with Project
Aria smart glasses, and zero robot data. EgoZero enables: (1)
extraction of complete, robot-executable actions from in-the-wild, egocentric,
human demonstrations, (2) compression of human visual observations into
morphology-agnostic state representations, and (3) closed-loop policy learning
that generalizes morphologically, spatially, and semantically. We deploy
EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot
transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of
data collection per task. Our results suggest that in-the-wild human data can
serve as a scalable foundation for real-world robot learning - paving the way
toward a future of abundant, diverse, and naturalistic training data for
robots. Code and videos are available at https://egozero-robot.github.io.Summary
AI-Generated Summary