Galactic: Skalierung von End-to-End Reinforcement Learning für Umordnungsaufgaben bei 100.000 Schritten pro Sekunde
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second
June 13, 2023
Autoren: Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander
cs.AI
Zusammenfassung
Wir präsentieren Galactic, ein groß angelegtes Simulations- und Reinforcement-Learning (RL)-Framework für die mobile Manipulation von Robotern in Innenräumen. Konkret wird ein Fetch-Roboter (ausgestattet mit einer mobilen Basis, einem 7DoF-Arm, einer RGBD-Kamera, Egomotion und Onboard-Sensoren) in einer häuslichen Umgebung platziert und aufgefordert, Objekte umzuordnen – indem er zu einem Objekt navigiert, es aufnimmt, zu einem Zielort navigiert und das Objekt dann am Zielort platziert.
Galactic ist schnell. In Bezug auf die Simulationsgeschwindigkeit (Rendering + Physik) erreicht Galactic über 421.000 Schritte pro Sekunde (SPS) auf einem 8-GPU-Knoten, was 54-mal schneller ist als Habitat 2.0 (7699 SPS). Noch wichtiger ist, dass Galactic so konzipiert wurde, um das gesamte Zusammenspiel von Rendering, Physik und RL zu optimieren, da jeder Engpass in diesem Zusammenspiel das Training verlangsamt. In Bezug auf die Simulations-+RL-Geschwindigkeit (Rendering + Physik + Inferenz + Lernen) erreicht Galactic über 108.000 SPS, was 88-mal schneller ist als Habitat 2.0 (1243 SPS).
Diese massiven Beschleunigungen verkürzen nicht nur drastisch die Echtzeit-Trainingsdauer bestehender Experimente, sondern ermöglichen auch einen beispiellosen Umfang neuer Experimente. Erstens kann Galactic eine mobile Greiffertigkeit in weniger als 16 Minuten auf eine Genauigkeit von über 80 % trainieren, was einer 100-fachen Beschleunigung im Vergleich zu den über 24 Stunden entspricht, die das Training derselben Fertigkeit in Habitat 2.0 erfordert. Zweitens nutzen wir Galactic, um das bisher größte Experiment zur Umordnung durchzuführen, bei dem 5 Milliarden Schritte an Erfahrung in 46 Stunden gesammelt werden, was 20 Jahren Robotererfahrung entspricht. Diese Skalierung führt zu einem einzelnen neuronalen Netzwerk, das aus aufgabenunabhängigen Komponenten besteht und eine Erfolgsquote von 85 % bei der GeometricGoal-Umordnung erreicht, verglichen mit 0 % Erfolg, die in Habitat 2.0 für denselben Ansatz berichtet wurden. Der Code ist unter github.com/facebookresearch/galactic verfügbar.
English
We present Galactic, a large-scale simulation and reinforcement-learning (RL)
framework for robotic mobile manipulation in indoor environments. Specifically,
a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion,
and onboard sensing) is spawned in a home environment and asked to rearrange
objects - by navigating to an object, picking it up, navigating to a target
location, and then placing the object at the target location.
Galactic is fast. In terms of simulation speed (rendering + physics),
Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which
is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was
designed to optimize the entire rendering + physics + RL interplay since any
bottleneck in the interplay slows down training. In terms of simulation+RL
speed (rendering + physics + inference + learning), Galactic achieves over
108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS).
These massive speed-ups not only drastically cut the wall-clock training time
of existing experiments, but also unlock an unprecedented scale of new
experiments. First, Galactic can train a mobile pick skill to >80% accuracy in
under 16 minutes, a 100x speedup compared to the over 24 hours it takes to
train the same skill in Habitat 2.0. Second, we use Galactic to perform the
largest-scale experiment to date for rearrangement using 5B steps of experience
in 46 hours, which is equivalent to 20 years of robot experience. This scaling
results in a single neural network composed of task-agnostic components
achieving 85% success in GeometricGoal rearrangement, compared to 0% success
reported in Habitat 2.0 for the same approach. The code is available at
github.com/facebookresearch/galactic.