Модели полезности роботов: общие принципы для развертывания без предварительного обучения в новых средах.

Аннотация

Модели роботов, особенно те, которые обучены на больших объемах данных, недавно продемонстрировали множество возможностей манипуляции и навигации в реальном мире. Несколько независимых усилий показали, что при наличии достаточного объема обучающих данных в среде политики роботов могут обобщаться на демонстрированные вариации в этой среде. Однако необходимость донастройки моделей роботов для каждой новой среды стоит в явном противоречии с моделями в области языка или зрения, которые могут быть задействованы "из коробки" для проблем открытого мира. В данной работе мы представляем модели полезности роботов (Robot Utility Models, RUMs), фреймворк для обучения и задействования политик роботов "из коробки", которые могут напрямую обобщаться на новые среды без какой-либо донастройки. Для эффективного создания RUMs мы разрабатываем новые инструменты для быстрого сбора данных для задач мобильной манипуляции, интегрируем такие данные в политику с обучением по имитации с многомодальным подходом и задействуем политики на устройстве Hello Robot Stretch, дешевом коммодити-роботе, с внешним верификатором mLLM для повторных попыток. Мы обучаем пять таких моделей полезности для открывания дверей шкафов, выдвижения ящиков, поднятия салфеток, поднятия бумажных пакетов и переориентации упавших объектов. Наша система в среднем достигает 90% успешных попыток в невидимых, новых средах взаимодействия с невидимыми объектами. Более того, модели полезности также могут успешно справляться с различными настройками робота и камеры без дополнительных данных, обучения или донастройки. Среди наших основных уроков важность обучающих данных перед алгоритмом обучения и классом политики, руководство по масштабированию данных, необходимость разнообразных, но качественных демонстраций и рецепт для интроспекции робота и повторных попыток для улучшения производительности в индивидуальных средах. Наш код, данные, модели, дизайны оборудования, а также наши видео экспериментов и задействия доступны в открытом доступе и могут быть найдены на нашем веб-сайте проекта: https://robotutilitymodels.com

English

Robot models, particularly those trained with large amounts of data, have recently shown a plethora of real-world manipulation and navigation capabilities. Several independent efforts have shown that given sufficient training data in an environment, robot policies can generalize to demonstrated variations in that environment. However, needing to finetune robot models to every new environment stands in stark contrast to models in language or vision that can be deployed zero-shot for open-world problems. In this work, we present Robot Utility Models (RUMs), a framework for training and deploying zero-shot robot policies that can directly generalize to new environments without any finetuning. To create RUMs efficiently, we develop new tools to quickly collect data for mobile manipulation tasks, integrate such data into a policy with multi-modal imitation learning, and deploy policies on-device on Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier for retrying. We train five such utility models for opening cabinet doors, opening drawers, picking up napkins, picking up paper bags, and reorienting fallen objects. Our system, on average, achieves 90% success rate in unseen, novel environments interacting with unseen objects. Moreover, the utility models can also succeed in different robot and camera set-ups with no further data, training, or fine-tuning. Primary among our lessons are the importance of training data over training algorithm and policy class, guidance about data scaling, necessity for diverse yet high-quality demonstrations, and a recipe for robot introspection and retrying to improve performance on individual environments. Our code, data, models, hardware designs, as well as our experiment and deployment videos are open sourced and can be found on our project website: https://robotutilitymodels.com

Модели полезности роботов: общие принципы для развертывания без предварительного обучения в новых средах.

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Аннотация

Support