Модели полезности роботов: общие принципы для развертывания без предварительного обучения в новых средах.
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
September 9, 2024
Авторы: Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
Аннотация
Модели роботов, особенно те, которые обучены на больших объемах данных, недавно продемонстрировали множество возможностей манипуляции и навигации в реальном мире. Несколько независимых усилий показали, что при наличии достаточного объема обучающих данных в среде политики роботов могут обобщаться на демонстрированные вариации в этой среде. Однако необходимость донастройки моделей роботов для каждой новой среды стоит в явном противоречии с моделями в области языка или зрения, которые могут быть задействованы "из коробки" для проблем открытого мира. В данной работе мы представляем модели полезности роботов (Robot Utility Models, RUMs), фреймворк для обучения и задействования политик роботов "из коробки", которые могут напрямую обобщаться на новые среды без какой-либо донастройки. Для эффективного создания RUMs мы разрабатываем новые инструменты для быстрого сбора данных для задач мобильной манипуляции, интегрируем такие данные в политику с обучением по имитации с многомодальным подходом и задействуем политики на устройстве Hello Robot Stretch, дешевом коммодити-роботе, с внешним верификатором mLLM для повторных попыток. Мы обучаем пять таких моделей полезности для открывания дверей шкафов, выдвижения ящиков, поднятия салфеток, поднятия бумажных пакетов и переориентации упавших объектов. Наша система в среднем достигает 90% успешных попыток в невидимых, новых средах взаимодействия с невидимыми объектами. Более того, модели полезности также могут успешно справляться с различными настройками робота и камеры без дополнительных данных, обучения или донастройки. Среди наших основных уроков важность обучающих данных перед алгоритмом обучения и классом политики, руководство по масштабированию данных, необходимость разнообразных, но качественных демонстраций и рецепт для интроспекции робота и повторных попыток для улучшения производительности в индивидуальных средах. Наш код, данные, модели, дизайны оборудования, а также наши видео экспериментов и задействия доступны в открытом доступе и могут быть найдены на нашем веб-сайте проекта: https://robotutilitymodels.com
English
Robot models, particularly those trained with large amounts of data, have
recently shown a plethora of real-world manipulation and navigation
capabilities. Several independent efforts have shown that given sufficient
training data in an environment, robot policies can generalize to demonstrated
variations in that environment. However, needing to finetune robot models to
every new environment stands in stark contrast to models in language or vision
that can be deployed zero-shot for open-world problems. In this work, we
present Robot Utility Models (RUMs), a framework for training and deploying
zero-shot robot policies that can directly generalize to new environments
without any finetuning. To create RUMs efficiently, we develop new tools to
quickly collect data for mobile manipulation tasks, integrate such data into a
policy with multi-modal imitation learning, and deploy policies on-device on
Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier
for retrying. We train five such utility models for opening cabinet doors,
opening drawers, picking up napkins, picking up paper bags, and reorienting
fallen objects. Our system, on average, achieves 90% success rate in unseen,
novel environments interacting with unseen objects. Moreover, the utility
models can also succeed in different robot and camera set-ups with no further
data, training, or fine-tuning. Primary among our lessons are the importance of
training data over training algorithm and policy class, guidance about data
scaling, necessity for diverse yet high-quality demonstrations, and a recipe
for robot introspection and retrying to improve performance on individual
environments. Our code, data, models, hardware designs, as well as our
experiment and deployment videos are open sourced and can be found on our
project website: https://robotutilitymodels.comSummary
AI-Generated Summary