Galactic: Escalando el Aprendizaje por Refuerzo de Extremo a Extremo para Reorganización a 100k Pasos por Segundo
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second
June 13, 2023
Autores: Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander
cs.AI
Resumen
Presentamos Galactic, un marco de simulación a gran escala y aprendizaje por refuerzo (RL) para la manipulación móvil robótica en entornos interiores. Específicamente, un robot Fetch (equipado con una base móvil, brazo de 7 grados de libertad, cámara RGBD, egomoción y sensores integrados) es generado en un entorno doméstico y se le solicita reorganizar objetos: navegando hacia un objeto, recogiéndolo, navegando hacia una ubicación objetivo y luego colocando el objeto en dicha ubicación.
Galactic es rápido. En términos de velocidad de simulación (renderizado + física), Galactic alcanza más de 421,000 pasos por segundo (SPS) en un nodo con 8 GPUs, lo que es 54 veces más rápido que Habitat 2.0 (7699 SPS). Más importante aún, Galactic fue diseñado para optimizar la interacción completa entre renderizado, física y RL, ya que cualquier cuello de botella en esta interacción ralentiza el entrenamiento. En términos de velocidad de simulación+RL (renderizado + física + inferencia + aprendizaje), Galactic logra más de 108,000 SPS, lo que es 88 veces más rápido que Habitat 2.0 (1243 SPS).
Estas mejoras masivas en velocidad no solo reducen drásticamente el tiempo de entrenamiento en reloj de los experimentos existentes, sino que también permiten una escala sin precedentes para nuevos experimentos. Primero, Galactic puede entrenar una habilidad de recogida móvil con una precisión >80% en menos de 16 minutos, una aceleración de 100x en comparación con las más de 24 horas que toma entrenar la misma habilidad en Habitat 2.0. Segundo, utilizamos Galactic para realizar el experimento a mayor escala hasta la fecha en reorganización, utilizando 5 mil millones de pasos de experiencia en 46 horas, lo que equivale a 20 años de experiencia robótica. Este escalamiento resulta en una única red neuronal compuesta por componentes agnósticos a la tarea que logra un 85% de éxito en la reorganización GeometricGoal, en comparación con el 0% de éxito reportado en Habitat 2.0 para el mismo enfoque. El código está disponible en github.com/facebookresearch/galactic.
English
We present Galactic, a large-scale simulation and reinforcement-learning (RL)
framework for robotic mobile manipulation in indoor environments. Specifically,
a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion,
and onboard sensing) is spawned in a home environment and asked to rearrange
objects - by navigating to an object, picking it up, navigating to a target
location, and then placing the object at the target location.
Galactic is fast. In terms of simulation speed (rendering + physics),
Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which
is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was
designed to optimize the entire rendering + physics + RL interplay since any
bottleneck in the interplay slows down training. In terms of simulation+RL
speed (rendering + physics + inference + learning), Galactic achieves over
108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS).
These massive speed-ups not only drastically cut the wall-clock training time
of existing experiments, but also unlock an unprecedented scale of new
experiments. First, Galactic can train a mobile pick skill to >80% accuracy in
under 16 minutes, a 100x speedup compared to the over 24 hours it takes to
train the same skill in Habitat 2.0. Second, we use Galactic to perform the
largest-scale experiment to date for rearrangement using 5B steps of experience
in 46 hours, which is equivalent to 20 years of robot experience. This scaling
results in a single neural network composed of task-agnostic components
achieving 85% success in GeometricGoal rearrangement, compared to 0% success
reported in Habitat 2.0 for the same approach. The code is available at
github.com/facebookresearch/galactic.