Galactic: Schaalbaar End-to-End Reinforcement Learning voor Herordening op 100.000 Stappen-Per-Seconde

Samenvatting

We presenteren Galactic, een grootschalig simulatie- en reinforcement learning (RL)-framework voor robotische mobiele manipulatie in binnenomgevingen. Specifiek wordt een Fetch-robot (uitgerust met een mobiele basis, 7DoF-arm, RGBD-camera, egomotion en onboard-sensoren) in een thuissimulatie geplaatst en gevraagd om objecten te herschikken – door naar een object te navigeren, het op te pakken, naar een doelpositie te navigeren en het object vervolgens op de doelpositie te plaatsen. Galactic is snel. Wat betreft simulatietempo (rendering + fysica) behaalt Galactic meer dan 421.000 stappen per seconde (SPS) op een 8-GPU-node, wat 54x sneller is dan Habitat 2.0 (7699 SPS). Belangrijker is dat Galactic is ontworpen om de hele interactie tussen rendering, fysica en RL te optimaliseren, aangezien elke bottleneck in deze interactie de training vertraagt. Wat betreft simulatie+RL-tempo (rendering + fysica + inferentie + leren) behaalt Galactic meer dan 108.000 SPS, wat 88x sneller is dan Habitat 2.0 (1243 SPS). Deze enorme snelheidsverbeteringen verkorten niet alleen drastisch de wall-clock-traintijd van bestaande experimenten, maar maken ook een ongekende schaal van nieuwe experimenten mogelijk. Ten eerste kan Galactic een mobiele pick-vaardigheid trainen tot >80% nauwkeurigheid in minder dan 16 minuten, een 100x versnelling vergeleken met de meer dan 24 uur die het kost om dezelfde vaardigheid in Habitat 2.0 te trainen. Ten tweede gebruiken we Galactic om het grootste experiment tot nu toe uit te voeren voor herschikking met 5 miljard stappen ervaring in 46 uur, wat overeenkomt met 20 jaar robotervaring. Deze schaalvergroting resulteert in een enkel neuraal netwerk, bestaande uit taakonafhankelijke componenten, dat een slagingspercentage van 85% behaalt in GeometricGoal-herschikking, vergeleken met 0% succes gerapporteerd in Habitat 2.0 voor dezelfde aanpak. De code is beschikbaar op github.com/facebookresearch/galactic.

English

We present Galactic, a large-scale simulation and reinforcement-learning (RL) framework for robotic mobile manipulation in indoor environments. Specifically, a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion, and onboard sensing) is spawned in a home environment and asked to rearrange objects - by navigating to an object, picking it up, navigating to a target location, and then placing the object at the target location. Galactic is fast. In terms of simulation speed (rendering + physics), Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was designed to optimize the entire rendering + physics + RL interplay since any bottleneck in the interplay slows down training. In terms of simulation+RL speed (rendering + physics + inference + learning), Galactic achieves over 108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS). These massive speed-ups not only drastically cut the wall-clock training time of existing experiments, but also unlock an unprecedented scale of new experiments. First, Galactic can train a mobile pick skill to >80% accuracy in under 16 minutes, a 100x speedup compared to the over 24 hours it takes to train the same skill in Habitat 2.0. Second, we use Galactic to perform the largest-scale experiment to date for rearrangement using 5B steps of experience in 46 hours, which is equivalent to 20 years of robot experience. This scaling results in a single neural network composed of task-agnostic components achieving 85% success in GeometricGoal rearrangement, compared to 0% success reported in Habitat 2.0 for the same approach. The code is available at github.com/facebookresearch/galactic.

Galactic: Schaalbaar End-to-End Reinforcement Learning voor Herordening op 100.000 Stappen-Per-Seconde

Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Samenvatting

Support