クロスエンボディードラーニングのスケーリング:操作、ナビゲーション、移動、航空のための1つのポリシー
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation
August 21, 2024
著者: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI
要旨
現代の機械学習システムは、広範な一般化を達成するために大規模なデータセットに依存しており、これはしばしばロボット学習において課題となります。各ロボットプラットフォームやタスクにはごく少数のデータセットしかない場合があります。1つのポリシーを多様な種類のロボット全体でトレーニングすることにより、ロボット学習手法ははるかに広範で多様なデータセットを活用し、それによってより良い一般化と堅牢性をもたらすことができます。ただし、複数のロボットデータに1つのポリシーをトレーニングすることは難しいです。なぜなら、ロボットにはセンサーやアクチュエータ、制御周波数が大きく異なることがあるからです。私たちはCrossFormerを提案します。これは、どんな具現形態からもデータを受け取ることができるスケーラブルで柔軟なトランスフォーマーベースのポリシーです。私たちは、20種類の異なるロボット具現形態で合計900Kの軌跡を持つ、これまでで最大かつ最も多様なデータセットでCrossFormerをトレーニングします。私たちは、同じネットワーク重みが単腕および複数腕の操作システム、車輪付きロボット、クアッドコプター、四足歩行ロボットなど、大きく異なるロボットを制御できることを示します。従来の手法とは異なり、私たちのモデルは観測空間や行動空間の手動整列を必要としません。実世界での包括的な実験では、私たちの手法が各具現形態に合わせた専門家ポリシーと同等のパフォーマンスを発揮し、さらに具現形態間学習の先行技術を大幅に上回ることを示しています。
English
Modern machine learning systems rely on large datasets to attain broad
generalization, and this often poses a challenge in robot learning, where each
robotic platform and task might have only a small dataset. By training a single
policy across many different kinds of robots, a robot learning method can
leverage much broader and more diverse datasets, which in turn can lead to
better generalization and robustness. However, training a single policy on
multi-robot data is challenging because robots can have widely varying sensors,
actuators, and control frequencies. We propose CrossFormer, a scalable and
flexible transformer-based policy that can consume data from any embodiment. We
train CrossFormer on the largest and most diverse dataset to date, 900K
trajectories across 20 different robot embodiments. We demonstrate that the
same network weights can control vastly different robots, including single and
dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds.
Unlike prior work, our model does not require manual alignment of the
observation or action spaces. Extensive experiments in the real world show that
our method matches the performance of specialist policies tailored for each
embodiment, while also significantly outperforming the prior state of the art
in cross-embodiment learning.Summary
AI-Generated Summary