ChatPaper.aiChatPaper

Schaalbaar maken van cross-embodied leren: Eén beleid voor manipulatie, navigatie, voortbeweging en luchtvaart

Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

August 21, 2024
Auteurs: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI

Samenvatting

Moderne machine learning-systemen vertrouwen op grote datasets om brede generalisatie te bereiken, en dit vormt vaak een uitdaging in robotleren, waar elk robotplatform en elke taak mogelijk slechts een kleine dataset heeft. Door een enkel beleid te trainen over vele verschillende soorten robots, kan een robotleermethode gebruikmaken van veel bredere en diversere datasets, wat op zijn beurt kan leiden tot betere generalisatie en robuustheid. Het trainen van een enkel beleid op multi-robotdata is echter uitdagend omdat robots sterk kunnen variëren in sensoren, actuatoren en besturingsfrequenties. Wij stellen CrossFormer voor, een schaalbare en flexibele transformer-gebaseerde policy die data van elke belichaming kan verwerken. We trainen CrossFormer op de grootste en meest diverse dataset tot nu toe, 900K trajecten over 20 verschillende robotbelichamingen. We demonstreren dat dezelfde netwerkgewichten sterk verschillende robots kunnen besturen, waaronder enkel- en dubbelarmige manipulatoren, wielrobots, quadcopters en viervoeters. In tegenstelling tot eerder werk vereist ons model geen handmatige afstemming van de observatie- of actieruimten. Uitgebreide experimenten in de echte wereld tonen aan dat onze methode de prestaties evenaart van specialistische policies die voor elke belichaming zijn afgestemd, terwijl het ook aanzienlijk beter presteert dan de vorige stand van de techniek in cross-embodiment leren.
English
Modern machine learning systems rely on large datasets to attain broad generalization, and this often poses a challenge in robot learning, where each robotic platform and task might have only a small dataset. By training a single policy across many different kinds of robots, a robot learning method can leverage much broader and more diverse datasets, which in turn can lead to better generalization and robustness. However, training a single policy on multi-robot data is challenging because robots can have widely varying sensors, actuators, and control frequencies. We propose CrossFormer, a scalable and flexible transformer-based policy that can consume data from any embodiment. We train CrossFormer on the largest and most diverse dataset to date, 900K trajectories across 20 different robot embodiments. We demonstrate that the same network weights can control vastly different robots, including single and dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds. Unlike prior work, our model does not require manual alignment of the observation or action spaces. Extensive experiments in the real world show that our method matches the performance of specialist policies tailored for each embodiment, while also significantly outperforming the prior state of the art in cross-embodiment learning.

Summary

AI-Generated Summary

PDF62November 16, 2024