Galactic: Schaalbaar End-to-End Reinforcement Learning voor Herordening op 100.000 Stappen-Per-Seconde
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second
June 13, 2023
Auteurs: Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander
cs.AI
Samenvatting
We presenteren Galactic, een grootschalig simulatie- en reinforcement learning (RL)-framework voor robotische mobiele manipulatie in binnenomgevingen. Specifiek wordt een Fetch-robot (uitgerust met een mobiele basis, 7DoF-arm, RGBD-camera, egomotion en onboard-sensoren) in een thuissimulatie geplaatst en gevraagd om objecten te herschikken – door naar een object te navigeren, het op te pakken, naar een doelpositie te navigeren en het object vervolgens op de doelpositie te plaatsen.
Galactic is snel. Wat betreft simulatietempo (rendering + fysica) behaalt Galactic meer dan 421.000 stappen per seconde (SPS) op een 8-GPU-node, wat 54x sneller is dan Habitat 2.0 (7699 SPS). Belangrijker is dat Galactic is ontworpen om de hele interactie tussen rendering, fysica en RL te optimaliseren, aangezien elke bottleneck in deze interactie de training vertraagt. Wat betreft simulatie+RL-tempo (rendering + fysica + inferentie + leren) behaalt Galactic meer dan 108.000 SPS, wat 88x sneller is dan Habitat 2.0 (1243 SPS).
Deze enorme snelheidsverbeteringen verkorten niet alleen drastisch de wall-clock-traintijd van bestaande experimenten, maar maken ook een ongekende schaal van nieuwe experimenten mogelijk. Ten eerste kan Galactic een mobiele pick-vaardigheid trainen tot >80% nauwkeurigheid in minder dan 16 minuten, een 100x versnelling vergeleken met de meer dan 24 uur die het kost om dezelfde vaardigheid in Habitat 2.0 te trainen. Ten tweede gebruiken we Galactic om het grootste experiment tot nu toe uit te voeren voor herschikking met 5 miljard stappen ervaring in 46 uur, wat overeenkomt met 20 jaar robotervaring. Deze schaalvergroting resulteert in een enkel neuraal netwerk, bestaande uit taakonafhankelijke componenten, dat een slagingspercentage van 85% behaalt in GeometricGoal-herschikking, vergeleken met 0% succes gerapporteerd in Habitat 2.0 voor dezelfde aanpak. De code is beschikbaar op github.com/facebookresearch/galactic.
English
We present Galactic, a large-scale simulation and reinforcement-learning (RL)
framework for robotic mobile manipulation in indoor environments. Specifically,
a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion,
and onboard sensing) is spawned in a home environment and asked to rearrange
objects - by navigating to an object, picking it up, navigating to a target
location, and then placing the object at the target location.
Galactic is fast. In terms of simulation speed (rendering + physics),
Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which
is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was
designed to optimize the entire rendering + physics + RL interplay since any
bottleneck in the interplay slows down training. In terms of simulation+RL
speed (rendering + physics + inference + learning), Galactic achieves over
108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS).
These massive speed-ups not only drastically cut the wall-clock training time
of existing experiments, but also unlock an unprecedented scale of new
experiments. First, Galactic can train a mobile pick skill to >80% accuracy in
under 16 minutes, a 100x speedup compared to the over 24 hours it takes to
train the same skill in Habitat 2.0. Second, we use Galactic to perform the
largest-scale experiment to date for rearrangement using 5B steps of experience
in 46 hours, which is equivalent to 20 years of robot experience. This scaling
results in a single neural network composed of task-agnostic components
achieving 85% success in GeometricGoal rearrangement, compared to 0% success
reported in Habitat 2.0 for the same approach. The code is available at
github.com/facebookresearch/galactic.