EgoZero: Обучение роботов с использованием умных очков

Аннотация

Несмотря на недавние достижения в области универсальной робототехники, политики роботов всё ещё значительно отстают от базовых возможностей человека в реальном мире. Люди постоянно взаимодействуют с физической средой, однако этот богатый источник данных остаётся в значительной степени неиспользованным в обучении роботов. Мы предлагаем EgoZero — минималистичную систему, которая обучает устойчивые политики манипуляции на основе демонстраций человека, записанных с помощью умных очков Project Aria, и без использования данных от роботов. EgoZero позволяет: (1) извлекать полные, исполняемые роботом действия из демонстраций человека, снятых в естественных условиях с эгоцентрической перспективы, (2) сжимать визуальные наблюдения человека в представления состояний, независимые от морфологии, и (3) обучать замкнутые политики, которые обобщаются морфологически, пространственно и семантически. Мы внедряем политики EgoZero на роботе-манипуляторе Franka Panda и демонстрируем передачу навыков без предварительного обучения с успешностью 70% в 7 задачах манипуляции, при этом сбор данных для каждой задачи занимает всего 20 минут. Наши результаты показывают, что данные, полученные от человека в естественных условиях, могут служить масштабируемой основой для обучения роботов в реальном мире, прокладывая путь к будущему с изобилием разнообразных и естественных данных для обучения роботов. Код и видеоматериалы доступны по адресу https://egozero-robot.github.io.

English

Despite recent progress in general purpose robotics, robot policies still lag far behind basic human capabilities in the real world. Humans interact constantly with the physical world, yet this rich data resource remains largely untapped in robot learning. We propose EgoZero, a minimal system that learns robust manipulation policies from human demonstrations captured with Project Aria smart glasses, and zero robot data. EgoZero enables: (1) extraction of complete, robot-executable actions from in-the-wild, egocentric, human demonstrations, (2) compression of human visual observations into morphology-agnostic state representations, and (3) closed-loop policy learning that generalizes morphologically, spatially, and semantically. We deploy EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of data collection per task. Our results suggest that in-the-wild human data can serve as a scalable foundation for real-world robot learning - paving the way toward a future of abundant, diverse, and naturalistic training data for robots. Code and videos are available at https://egozero-robot.github.io.

EgoZero: Обучение роботов с использованием умных очков

EgoZero: Robot Learning from Smart Glasses

Аннотация

Support