Galactic: Scalabilità dell'Apprendimento per Rinforzo End-to-End per il Riarrangiamento a 100k Passi al Secondo
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second
June 13, 2023
Autori: Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander
cs.AI
Abstract
Presentiamo Galactic, un framework su larga scala per la simulazione e l'apprendimento per rinforzo (RL) applicato alla manipolazione mobile robotica in ambienti interni. Nello specifico, un robot Fetch (dotato di una base mobile, un braccio a 7 gradi di libertà, una telecamera RGBD, egomotion e sensori integrati) viene posizionato in un ambiente domestico e incaricato di riorganizzare oggetti, navigando verso un oggetto, raccogliendolo, spostandosi verso una posizione target e posizionando l'oggetto nella locazione desiderata.
Galactic è veloce. In termini di velocità di simulazione (rendering + fisica), Galactic raggiunge oltre 421.000 passi al secondo (SPS) su un nodo con 8 GPU, risultando 54 volte più veloce di Habitat 2.0 (7699 SPS). Ancora più importante, Galactic è stato progettato per ottimizzare l'interazione tra rendering, fisica e RL, poiché qualsiasi collo di bottiglia in questa interazione rallenta l'addestramento. In termini di velocità di simulazione+RL (rendering + fisica + inferenza + apprendimento), Galactic raggiunge oltre 108.000 SPS, risultando 88 volte più veloce di Habitat 2.0 (1243 SPS).
Questi enormi miglioramenti non solo riducono drasticamente il tempo di addestramento degli esperimenti esistenti, ma consentono anche di eseguire esperimenti su una scala senza precedenti. In primo luogo, Galactic può addestrare un'abilità di raccolta mobile con un'accuratezza superiore all'80% in meno di 16 minuti, un miglioramento di 100 volte rispetto alle oltre 24 ore necessarie per addestrare la stessa abilità in Habitat 2.0. In secondo luogo, utilizziamo Galactic per condurre l'esperimento su larga scala più ampio mai realizzato per il riordinamento, impiegando 5 miliardi di passi di esperienza in 46 ore, equivalenti a 20 anni di esperienza robotica. Questa scalabilità porta a una singola rete neurale composta da componenti agnostici rispetto al compito, che raggiunge un tasso di successo dell'85% nel riordinamento GeometricGoal, rispetto allo 0% di successo riportato in Habitat 2.0 per lo stesso approccio. Il codice è disponibile su github.com/facebookresearch/galactic.
English
We present Galactic, a large-scale simulation and reinforcement-learning (RL)
framework for robotic mobile manipulation in indoor environments. Specifically,
a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion,
and onboard sensing) is spawned in a home environment and asked to rearrange
objects - by navigating to an object, picking it up, navigating to a target
location, and then placing the object at the target location.
Galactic is fast. In terms of simulation speed (rendering + physics),
Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which
is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was
designed to optimize the entire rendering + physics + RL interplay since any
bottleneck in the interplay slows down training. In terms of simulation+RL
speed (rendering + physics + inference + learning), Galactic achieves over
108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS).
These massive speed-ups not only drastically cut the wall-clock training time
of existing experiments, but also unlock an unprecedented scale of new
experiments. First, Galactic can train a mobile pick skill to >80% accuracy in
under 16 minutes, a 100x speedup compared to the over 24 hours it takes to
train the same skill in Habitat 2.0. Second, we use Galactic to perform the
largest-scale experiment to date for rearrangement using 5B steps of experience
in 46 hours, which is equivalent to 20 years of robot experience. This scaling
results in a single neural network composed of task-agnostic components
achieving 85% success in GeometricGoal rearrangement, compared to 0% success
reported in Habitat 2.0 for the same approach. The code is available at
github.com/facebookresearch/galactic.