Modèles d'utilité des robots : Politiques générales pour le déploiement sans entraînement dans de nouveaux environnements
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
September 9, 2024
Auteurs: Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
Résumé
Les modèles de robots, en particulier ceux entraînés avec de grandes quantités de données, ont récemment montré une multitude de capacités de manipulation et de navigation dans le monde réel. Plusieurs efforts indépendants ont montré que, avec suffisamment de données d'entraînement dans un environnement, les politiques des robots peuvent généraliser aux variations démontrées dans cet environnement. Cependant, la nécessité de peaufiner les modèles de robots pour chaque nouvel environnement contraste fortement avec les modèles en langage ou en vision qui peuvent être déployés sans entraînement pour des problèmes ouverts. Dans ce travail, nous présentons les Modèles d'Utilité Robotique (RUMs), un cadre pour l'entraînement et le déploiement de politiques de robots sans entraînement qui peuvent généraliser directement à de nouveaux environnements sans aucune peaufinage. Pour créer efficacement des RUMs, nous développons de nouveaux outils pour collecter rapidement des données pour des tâches de manipulation mobile, intégrer ces données dans une politique avec un apprentissage par imitation multimodal, et déployer des politiques sur l'appareil sur le robot bon marché Hello Robot Stretch, avec un vérificateur externe mLLM pour les tentatives de réessai. Nous entraînons cinq de ces modèles d'utilité pour ouvrir des portes de placard, ouvrir des tiroirs, ramasser des serviettes en papier, ramasser des sacs en papier, et réorienter des objets tombés. Notre système, en moyenne, atteint un taux de réussite de 90% dans des environnements inconnus, interagissant avec des objets inconnus. De plus, les modèles d'utilité peuvent également réussir dans des configurations de robots et de caméras différentes sans données supplémentaires, entraînement ou peaufinage. Parmi nos principales leçons, l'importance des données d'entraînement par rapport à l'algorithme d'entraînement et à la classe de politique, des conseils sur l'échelle des données, la nécessité de démonstrations diverses mais de haute qualité, et une recette pour l'introspection et les réessais des robots afin d'améliorer les performances dans des environnements individuels. Notre code, nos données, nos modèles, nos conceptions matérielles, ainsi que nos vidéos d'expérience et de déploiement sont en open source et peuvent être trouvés sur notre site web du projet : https://robotutilitymodels.com
English
Robot models, particularly those trained with large amounts of data, have
recently shown a plethora of real-world manipulation and navigation
capabilities. Several independent efforts have shown that given sufficient
training data in an environment, robot policies can generalize to demonstrated
variations in that environment. However, needing to finetune robot models to
every new environment stands in stark contrast to models in language or vision
that can be deployed zero-shot for open-world problems. In this work, we
present Robot Utility Models (RUMs), a framework for training and deploying
zero-shot robot policies that can directly generalize to new environments
without any finetuning. To create RUMs efficiently, we develop new tools to
quickly collect data for mobile manipulation tasks, integrate such data into a
policy with multi-modal imitation learning, and deploy policies on-device on
Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier
for retrying. We train five such utility models for opening cabinet doors,
opening drawers, picking up napkins, picking up paper bags, and reorienting
fallen objects. Our system, on average, achieves 90% success rate in unseen,
novel environments interacting with unseen objects. Moreover, the utility
models can also succeed in different robot and camera set-ups with no further
data, training, or fine-tuning. Primary among our lessons are the importance of
training data over training algorithm and policy class, guidance about data
scaling, necessity for diverse yet high-quality demonstrations, and a recipe
for robot introspection and retrying to improve performance on individual
environments. Our code, data, models, hardware designs, as well as our
experiment and deployment videos are open sourced and can be found on our
project website: https://robotutilitymodels.comSummary
AI-Generated Summary