ChatPaper.aiChatPaper

Scalabilità dell'Apprendimento Cross-Embodied: Una Singola Politica per Manipolazione, Navigazione, Locomozione e Aviazione

Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

August 21, 2024
Autori: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI

Abstract

I moderni sistemi di apprendimento automatico si basano su grandi dataset per ottenere un'ampia generalizzazione, e questo spesso rappresenta una sfida nell'apprendimento robotico, dove ogni piattaforma robotica e compito potrebbe disporre solo di un piccolo dataset. Addestrando una singola policy su molti tipi diversi di robot, un metodo di apprendimento robotico può sfruttare dataset molto più ampi e diversificati, il che a sua volta può portare a una migliore generalizzazione e robustezza. Tuttavia, addestrare una singola policy su dati multi-robot è impegnativo perché i robot possono avere sensori, attuatori e frequenze di controllo molto variabili. Proponiamo CrossFormer, una policy basata su transformer scalabile e flessibile che può elaborare dati provenienti da qualsiasi incarnazione. Addestriamo CrossFormer sul dataset più grande e diversificato fino ad oggi, 900K traiettorie su 20 diverse incarnazioni di robot. Dimostriamo che gli stessi pesi della rete possono controllare robot molto diversi, inclusi sistemi di manipolazione a braccio singolo e doppio, robot su ruote, quadricotteri e quadrupedi. A differenza dei lavori precedenti, il nostro modello non richiede un allineamento manuale degli spazi di osservazione o di azione. Esperimenti estensivi nel mondo reale mostrano che il nostro metodo eguaglia le prestazioni di policy specializzate progettate per ogni incarnazione, superando significativamente anche lo stato dell'arte precedente nell'apprendimento cross-incarnazione.
English
Modern machine learning systems rely on large datasets to attain broad generalization, and this often poses a challenge in robot learning, where each robotic platform and task might have only a small dataset. By training a single policy across many different kinds of robots, a robot learning method can leverage much broader and more diverse datasets, which in turn can lead to better generalization and robustness. However, training a single policy on multi-robot data is challenging because robots can have widely varying sensors, actuators, and control frequencies. We propose CrossFormer, a scalable and flexible transformer-based policy that can consume data from any embodiment. We train CrossFormer on the largest and most diverse dataset to date, 900K trajectories across 20 different robot embodiments. We demonstrate that the same network weights can control vastly different robots, including single and dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds. Unlike prior work, our model does not require manual alignment of the observation or action spaces. Extensive experiments in the real world show that our method matches the performance of specialist policies tailored for each embodiment, while also significantly outperforming the prior state of the art in cross-embodiment learning.
PDF62November 16, 2024