ChatPaper.aiChatPaper

Mise à l'échelle de l'apprentissage croisé incarné : une politique pour la manipulation, la navigation, la locomotion et l'aviation

Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

August 21, 2024
Auteurs: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI

Résumé

Les systèmes modernes d'apprentissage automatique reposent sur de vastes ensembles de données pour atteindre une généralisation étendue, ce qui pose souvent un défi dans l'apprentissage robotique, où chaque plateforme et tâche robotique peuvent disposer de seulement un petit ensemble de données. En entraînant une seule politique sur de nombreux types de robots différents, une méthode d'apprentissage robotique peut exploiter des ensembles de données beaucoup plus vastes et diversifiés, ce qui peut à son tour conduire à une meilleure généralisation et robustesse. Cependant, entraîner une seule politique sur des données multi-robots est difficile car les robots peuvent avoir des capteurs, actionneurs et fréquences de contrôle très variés. Nous proposons CrossFormer, une politique basée sur un transformateur évolutive et flexible qui peut traiter des données provenant de n'importe quelle incarnation. Nous entraînons CrossFormer sur le plus grand et le plus diversifié ensemble de données à ce jour, soit 900 000 trajectoires à travers 20 incarnations de robots différentes. Nous démontrons que les mêmes poids de réseau peuvent contrôler des robots très différents, y compris des systèmes de manipulation à un ou deux bras, des robots à roues, des quadricoptères et des quadrupèdes. Contrairement aux travaux antérieurs, notre modèle ne nécessite pas d'alignement manuel des espaces d'observation ou d'action. Des expériences approfondies dans le monde réel montrent que notre méthode égale les performances des politiques spécialisées adaptées à chaque incarnation, tout en surpassant significativement l'état de l'art précédent en matière d'apprentissage inter-incarnations.
English
Modern machine learning systems rely on large datasets to attain broad generalization, and this often poses a challenge in robot learning, where each robotic platform and task might have only a small dataset. By training a single policy across many different kinds of robots, a robot learning method can leverage much broader and more diverse datasets, which in turn can lead to better generalization and robustness. However, training a single policy on multi-robot data is challenging because robots can have widely varying sensors, actuators, and control frequencies. We propose CrossFormer, a scalable and flexible transformer-based policy that can consume data from any embodiment. We train CrossFormer on the largest and most diverse dataset to date, 900K trajectories across 20 different robot embodiments. We demonstrate that the same network weights can control vastly different robots, including single and dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds. Unlike prior work, our model does not require manual alignment of the observation or action spaces. Extensive experiments in the real world show that our method matches the performance of specialist policies tailored for each embodiment, while also significantly outperforming the prior state of the art in cross-embodiment learning.

Summary

AI-Generated Summary

PDF62November 16, 2024