Skalierung des Cross-Embodied Lernens: Eine Richtlinie für Manipulation, Navigation, Fortbewegung und Luftfahrt
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation
August 21, 2024
Autoren: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI
Zusammenfassung
Moderne maschinelle Lernsysteme verlassen sich auf große Datensätze, um eine breite Verallgemeinerung zu erreichen, was in der Roboterlernumgebung oft eine Herausforderung darstellt, da jede Roboterplattform und Aufgabe möglicherweise nur über einen kleinen Datensatz verfügt. Durch das Training einer einzigen Richtlinie über viele verschiedene Arten von Robotern hinweg kann eine Roboterlernmethode auf wesentlich breitere und vielfältigere Datensätze zurückgreifen, was wiederum zu einer besseren Verallgemeinerung und Robustheit führen kann. Das Training einer einzigen Richtlinie auf Multi-Roboter-Daten ist jedoch herausfordernd, da Roboter über stark unterschiedliche Sensoren, Aktuatoren und Steuerfrequenzen verfügen können. Wir schlagen CrossFormer vor, eine skalierbare und flexible Transformer-basierte Richtlinie, die Daten aus jeder Ausprägung verarbeiten kann. Wir trainieren CrossFormer an dem bisher größten und vielfältigsten Datensatz, 900.000 Trajektorien über 20 verschiedene Roboter-Ausprägungen. Wir zeigen, dass dieselben Netzwerk-Gewichte eine Vielzahl von unterschiedlichen Robotern steuern können, darunter Einzel- und Doppelarm-Manipulationssysteme, Radroboter, Quadrokopter und Vierbeiner. Im Gegensatz zu früheren Arbeiten erfordert unser Modell keine manuelle Ausrichtung der Beobachtungs- oder Aktionsräume. Umfangreiche Experimente in der realen Welt zeigen, dass unsere Methode die Leistung spezialisierter Richtlinien, die für jede Ausprägung maßgeschneidert sind, erreicht, während sie auch den bisherigen Stand der Technik im Bereich des Lernens über verschiedene Ausprägungen signifikant übertrifft.
English
Modern machine learning systems rely on large datasets to attain broad
generalization, and this often poses a challenge in robot learning, where each
robotic platform and task might have only a small dataset. By training a single
policy across many different kinds of robots, a robot learning method can
leverage much broader and more diverse datasets, which in turn can lead to
better generalization and robustness. However, training a single policy on
multi-robot data is challenging because robots can have widely varying sensors,
actuators, and control frequencies. We propose CrossFormer, a scalable and
flexible transformer-based policy that can consume data from any embodiment. We
train CrossFormer on the largest and most diverse dataset to date, 900K
trajectories across 20 different robot embodiments. We demonstrate that the
same network weights can control vastly different robots, including single and
dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds.
Unlike prior work, our model does not require manual alignment of the
observation or action spaces. Extensive experiments in the real world show that
our method matches the performance of specialist policies tailored for each
embodiment, while also significantly outperforming the prior state of the art
in cross-embodiment learning.Summary
AI-Generated Summary