ロボットユーティリティモデル:新しい環境へのゼロショット展開のための一般方針
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
September 9, 2024
著者: Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
要旨
ロボットモデル、特に大量のデータで訓練されたモデルは、最近、多様な現実世界の操作およびナビゲーション能力を示しています。複数の独立した取り組みが、環境での十分な訓練データが与えられた場合、ロボットポリシーがその環境での変動にも一般化できることを示しています。ただし、新しい環境ごとにロボットモデルを微調整する必要性は、言語やビジョンのモデルがオープンワールドの問題にゼロショットで展開できるのとは対照的です。本研究では、新しい環境に直接一般化できるゼロショットロボットポリシーを訓練および展開するためのフレームワークである「Robot Utility Models (RUMs)」を提案します。RUMsを効率的に作成するために、モバイル操作タスクのデータを迅速に収集するための新しいツールを開発し、そのようなデータをマルチモーダルな模倣学習を用いたポリシーに統合し、Hello Robot Stretchという安価な商用ロボット上でポリシーをデバイスに展開し、再試行のための外部mLLM検証ツールを備えます。キャビネットの扉を開ける、引き出しを開ける、ナプキンを取る、紙袋を取る、倒れたオブジェクトを再配置するといった5つのユーティリティモデルを訓練します。平均して、当システムは、未知の環境で未知のオブジェクトとやり取りし、90%の成功率を達成します。さらに、ユーティリティモデルは、追加のデータ、訓練、微調整なしで異なるロボットおよびカメラセットアップでも成功することができます。私たちの主な教訓の中で、訓練アルゴリズムやポリシークラスよりも訓練データの重要性、データのスケーリングに関するガイダンス、多様でありながら高品質なデモンストレーションの必要性、個々の環境でのパフォーマンス向上のためのロボットの内省と再試行のレシピが挙げられます。当社のコード、データ、モデル、ハードウェア設計、実験および展開ビデオはオープンソースであり、プロジェクトウェブサイト(https://robotutilitymodels.com)で入手できます。
English
Robot models, particularly those trained with large amounts of data, have
recently shown a plethora of real-world manipulation and navigation
capabilities. Several independent efforts have shown that given sufficient
training data in an environment, robot policies can generalize to demonstrated
variations in that environment. However, needing to finetune robot models to
every new environment stands in stark contrast to models in language or vision
that can be deployed zero-shot for open-world problems. In this work, we
present Robot Utility Models (RUMs), a framework for training and deploying
zero-shot robot policies that can directly generalize to new environments
without any finetuning. To create RUMs efficiently, we develop new tools to
quickly collect data for mobile manipulation tasks, integrate such data into a
policy with multi-modal imitation learning, and deploy policies on-device on
Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier
for retrying. We train five such utility models for opening cabinet doors,
opening drawers, picking up napkins, picking up paper bags, and reorienting
fallen objects. Our system, on average, achieves 90% success rate in unseen,
novel environments interacting with unseen objects. Moreover, the utility
models can also succeed in different robot and camera set-ups with no further
data, training, or fine-tuning. Primary among our lessons are the importance of
training data over training algorithm and policy class, guidance about data
scaling, necessity for diverse yet high-quality demonstrations, and a recipe
for robot introspection and retrying to improve performance on individual
environments. Our code, data, models, hardware designs, as well as our
experiment and deployment videos are open sourced and can be found on our
project website: https://robotutilitymodels.comSummary
AI-Generated Summary