Galactic: Scalabilità dell'Apprendimento per Rinforzo End-to-End per il Riarrangiamento a 100k Passi al Secondo

Abstract

Presentiamo Galactic, un framework su larga scala per la simulazione e l'apprendimento per rinforzo (RL) applicato alla manipolazione mobile robotica in ambienti interni. Nello specifico, un robot Fetch (dotato di una base mobile, un braccio a 7 gradi di libertà, una telecamera RGBD, egomotion e sensori integrati) viene posizionato in un ambiente domestico e incaricato di riorganizzare oggetti, navigando verso un oggetto, raccogliendolo, spostandosi verso una posizione target e posizionando l'oggetto nella locazione desiderata. Galactic è veloce. In termini di velocità di simulazione (rendering + fisica), Galactic raggiunge oltre 421.000 passi al secondo (SPS) su un nodo con 8 GPU, risultando 54 volte più veloce di Habitat 2.0 (7699 SPS). Ancora più importante, Galactic è stato progettato per ottimizzare l'interazione tra rendering, fisica e RL, poiché qualsiasi collo di bottiglia in questa interazione rallenta l'addestramento. In termini di velocità di simulazione+RL (rendering + fisica + inferenza + apprendimento), Galactic raggiunge oltre 108.000 SPS, risultando 88 volte più veloce di Habitat 2.0 (1243 SPS). Questi enormi miglioramenti non solo riducono drasticamente il tempo di addestramento degli esperimenti esistenti, ma consentono anche di eseguire esperimenti su una scala senza precedenti. In primo luogo, Galactic può addestrare un'abilità di raccolta mobile con un'accuratezza superiore all'80% in meno di 16 minuti, un miglioramento di 100 volte rispetto alle oltre 24 ore necessarie per addestrare la stessa abilità in Habitat 2.0. In secondo luogo, utilizziamo Galactic per condurre l'esperimento su larga scala più ampio mai realizzato per il riordinamento, impiegando 5 miliardi di passi di esperienza in 46 ore, equivalenti a 20 anni di esperienza robotica. Questa scalabilità porta a una singola rete neurale composta da componenti agnostici rispetto al compito, che raggiunge un tasso di successo dell'85% nel riordinamento GeometricGoal, rispetto allo 0% di successo riportato in Habitat 2.0 per lo stesso approccio. Il codice è disponibile su github.com/facebookresearch/galactic.

English

We present Galactic, a large-scale simulation and reinforcement-learning (RL) framework for robotic mobile manipulation in indoor environments. Specifically, a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion, and onboard sensing) is spawned in a home environment and asked to rearrange objects - by navigating to an object, picking it up, navigating to a target location, and then placing the object at the target location. Galactic is fast. In terms of simulation speed (rendering + physics), Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was designed to optimize the entire rendering + physics + RL interplay since any bottleneck in the interplay slows down training. In terms of simulation+RL speed (rendering + physics + inference + learning), Galactic achieves over 108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS). These massive speed-ups not only drastically cut the wall-clock training time of existing experiments, but also unlock an unprecedented scale of new experiments. First, Galactic can train a mobile pick skill to >80% accuracy in under 16 minutes, a 100x speedup compared to the over 24 hours it takes to train the same skill in Habitat 2.0. Second, we use Galactic to perform the largest-scale experiment to date for rearrangement using 5B steps of experience in 46 hours, which is equivalent to 20 years of robot experience. This scaling results in a single neural network composed of task-agnostic components achieving 85% success in GeometricGoal rearrangement, compared to 0% success reported in Habitat 2.0 for the same approach. The code is available at github.com/facebookresearch/galactic.

Galactic: Scalabilità dell'Apprendimento per Rinforzo End-to-End per il Riarrangiamento a 100k Passi al Secondo

Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Abstract

Support