Galactic : Mise à l'échelle de l'apprentissage par renforcement de bout en bout pour le réarrangement à 100 000 pas par seconde
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second
June 13, 2023
Auteurs: Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander
cs.AI
Résumé
Nous présentons Galactic, un cadre de simulation à grande échelle et d'apprentissage par renforcement (RL) pour la manipulation mobile robotique en environnements intérieurs. Plus précisément, un robot Fetch (équipé d'une base mobile, d'un bras à 7 degrés de liberté, d'une caméra RGBD, d'une égomotion et de capteurs embarqués) est déployé dans un environnement domestique et chargé de réorganiser des objets - en naviguant vers un objet, en le saisissant, en naviguant vers un emplacement cible, puis en déposant l'objet à cet emplacement.
Galactic est rapide. En termes de vitesse de simulation (rendu + physique), Galactic atteint plus de 421 000 étapes par seconde (SPS) sur un nœud à 8 GPU, ce qui est 54 fois plus rapide que Habitat 2.0 (7699 SPS). Plus important encore, Galactic a été conçu pour optimiser l'interaction entre le rendu, la physique et le RL, car tout goulot d'étranglement dans cette interaction ralentit l'entraînement. En termes de vitesse de simulation+RL (rendu + physique + inférence + apprentissage), Galactic atteint plus de 108 000 SPS, soit 88 fois plus rapide que Habitat 2.0 (1243 SPS).
Ces gains de vitesse massifs réduisent non seulement considérablement le temps d'entraînement en temps réel des expériences existantes, mais permettent également de réaliser des expériences à une échelle sans précédent. Premièrement, Galactic peut entraîner une compétence de préhension mobile à une précision de >80 % en moins de 16 minutes, soit une accélération de 100 fois par rapport aux plus de 24 heures nécessaires pour entraîner la même compétence dans Habitat 2.0. Deuxièmement, nous utilisons Galactic pour réaliser l'expérience de réorganisation la plus importante à ce jour, utilisant 5 milliards d'étapes d'expérience en 46 heures, ce qui équivaut à 20 ans d'expérience robotique. Cette mise à l'échelle permet à un seul réseau neuronal composé de composants agnostiques à la tâche d'atteindre un taux de réussite de 85 % dans la réorganisation GeometricGoal, contre 0 % de réussite rapporté dans Habitat 2.0 pour la même approche. Le code est disponible sur github.com/facebookresearch/galactic.
English
We present Galactic, a large-scale simulation and reinforcement-learning (RL)
framework for robotic mobile manipulation in indoor environments. Specifically,
a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion,
and onboard sensing) is spawned in a home environment and asked to rearrange
objects - by navigating to an object, picking it up, navigating to a target
location, and then placing the object at the target location.
Galactic is fast. In terms of simulation speed (rendering + physics),
Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which
is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was
designed to optimize the entire rendering + physics + RL interplay since any
bottleneck in the interplay slows down training. In terms of simulation+RL
speed (rendering + physics + inference + learning), Galactic achieves over
108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS).
These massive speed-ups not only drastically cut the wall-clock training time
of existing experiments, but also unlock an unprecedented scale of new
experiments. First, Galactic can train a mobile pick skill to >80% accuracy in
under 16 minutes, a 100x speedup compared to the over 24 hours it takes to
train the same skill in Habitat 2.0. Second, we use Galactic to perform the
largest-scale experiment to date for rearrangement using 5B steps of experience
in 46 hours, which is equivalent to 20 years of robot experience. This scaling
results in a single neural network composed of task-agnostic components
achieving 85% success in GeometricGoal rearrangement, compared to 0% success
reported in Habitat 2.0 for the same approach. The code is available at
github.com/facebookresearch/galactic.