Galactic: Skalierung von End-to-End Reinforcement Learning für Umordnungsaufgaben bei 100.000 Schritten pro Sekunde

papers.abstract

Wir präsentieren Galactic, ein groß angelegtes Simulations- und Reinforcement-Learning (RL)-Framework für die mobile Manipulation von Robotern in Innenräumen. Konkret wird ein Fetch-Roboter (ausgestattet mit einer mobilen Basis, einem 7DoF-Arm, einer RGBD-Kamera, Egomotion und Onboard-Sensoren) in einer häuslichen Umgebung platziert und aufgefordert, Objekte umzuordnen – indem er zu einem Objekt navigiert, es aufnimmt, zu einem Zielort navigiert und das Objekt dann am Zielort platziert. Galactic ist schnell. In Bezug auf die Simulationsgeschwindigkeit (Rendering + Physik) erreicht Galactic über 421.000 Schritte pro Sekunde (SPS) auf einem 8-GPU-Knoten, was 54-mal schneller ist als Habitat 2.0 (7699 SPS). Noch wichtiger ist, dass Galactic so konzipiert wurde, um das gesamte Zusammenspiel von Rendering, Physik und RL zu optimieren, da jeder Engpass in diesem Zusammenspiel das Training verlangsamt. In Bezug auf die Simulations-+RL-Geschwindigkeit (Rendering + Physik + Inferenz + Lernen) erreicht Galactic über 108.000 SPS, was 88-mal schneller ist als Habitat 2.0 (1243 SPS). Diese massiven Beschleunigungen verkürzen nicht nur drastisch die Echtzeit-Trainingsdauer bestehender Experimente, sondern ermöglichen auch einen beispiellosen Umfang neuer Experimente. Erstens kann Galactic eine mobile Greiffertigkeit in weniger als 16 Minuten auf eine Genauigkeit von über 80 % trainieren, was einer 100-fachen Beschleunigung im Vergleich zu den über 24 Stunden entspricht, die das Training derselben Fertigkeit in Habitat 2.0 erfordert. Zweitens nutzen wir Galactic, um das bisher größte Experiment zur Umordnung durchzuführen, bei dem 5 Milliarden Schritte an Erfahrung in 46 Stunden gesammelt werden, was 20 Jahren Robotererfahrung entspricht. Diese Skalierung führt zu einem einzelnen neuronalen Netzwerk, das aus aufgabenunabhängigen Komponenten besteht und eine Erfolgsquote von 85 % bei der GeometricGoal-Umordnung erreicht, verglichen mit 0 % Erfolg, die in Habitat 2.0 für denselben Ansatz berichtet wurden. Der Code ist unter github.com/facebookresearch/galactic verfügbar.

English

We present Galactic, a large-scale simulation and reinforcement-learning (RL) framework for robotic mobile manipulation in indoor environments. Specifically, a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion, and onboard sensing) is spawned in a home environment and asked to rearrange objects - by navigating to an object, picking it up, navigating to a target location, and then placing the object at the target location. Galactic is fast. In terms of simulation speed (rendering + physics), Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was designed to optimize the entire rendering + physics + RL interplay since any bottleneck in the interplay slows down training. In terms of simulation+RL speed (rendering + physics + inference + learning), Galactic achieves over 108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS). These massive speed-ups not only drastically cut the wall-clock training time of existing experiments, but also unlock an unprecedented scale of new experiments. First, Galactic can train a mobile pick skill to >80% accuracy in under 16 minutes, a 100x speedup compared to the over 24 hours it takes to train the same skill in Habitat 2.0. Second, we use Galactic to perform the largest-scale experiment to date for rearrangement using 5B steps of experience in 46 hours, which is equivalent to 20 years of robot experience. This scaling results in a single neural network composed of task-agnostic components achieving 85% success in GeometricGoal rearrangement, compared to 0% success reported in Habitat 2.0 for the same approach. The code is available at github.com/facebookresearch/galactic.

Galactic: Skalierung von End-to-End Reinforcement Learning für Umordnungsaufgaben bei 100.000 Schritten pro Sekunde

Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

papers.abstract

Support