Galactic: Escalando el Aprendizaje por Refuerzo de Extremo a Extremo para Reorganización a 100k Pasos por Segundo

Resumen

Presentamos Galactic, un marco de simulación a gran escala y aprendizaje por refuerzo (RL) para la manipulación móvil robótica en entornos interiores. Específicamente, un robot Fetch (equipado con una base móvil, brazo de 7 grados de libertad, cámara RGBD, egomoción y sensores integrados) es generado en un entorno doméstico y se le solicita reorganizar objetos: navegando hacia un objeto, recogiéndolo, navegando hacia una ubicación objetivo y luego colocando el objeto en dicha ubicación. Galactic es rápido. En términos de velocidad de simulación (renderizado + física), Galactic alcanza más de 421,000 pasos por segundo (SPS) en un nodo con 8 GPUs, lo que es 54 veces más rápido que Habitat 2.0 (7699 SPS). Más importante aún, Galactic fue diseñado para optimizar la interacción completa entre renderizado, física y RL, ya que cualquier cuello de botella en esta interacción ralentiza el entrenamiento. En términos de velocidad de simulación+RL (renderizado + física + inferencia + aprendizaje), Galactic logra más de 108,000 SPS, lo que es 88 veces más rápido que Habitat 2.0 (1243 SPS). Estas mejoras masivas en velocidad no solo reducen drásticamente el tiempo de entrenamiento en reloj de los experimentos existentes, sino que también permiten una escala sin precedentes para nuevos experimentos. Primero, Galactic puede entrenar una habilidad de recogida móvil con una precisión >80% en menos de 16 minutos, una aceleración de 100x en comparación con las más de 24 horas que toma entrenar la misma habilidad en Habitat 2.0. Segundo, utilizamos Galactic para realizar el experimento a mayor escala hasta la fecha en reorganización, utilizando 5 mil millones de pasos de experiencia en 46 horas, lo que equivale a 20 años de experiencia robótica. Este escalamiento resulta en una única red neuronal compuesta por componentes agnósticos a la tarea que logra un 85% de éxito en la reorganización GeometricGoal, en comparación con el 0% de éxito reportado en Habitat 2.0 para el mismo enfoque. El código está disponible en github.com/facebookresearch/galactic.

English

We present Galactic, a large-scale simulation and reinforcement-learning (RL) framework for robotic mobile manipulation in indoor environments. Specifically, a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion, and onboard sensing) is spawned in a home environment and asked to rearrange objects - by navigating to an object, picking it up, navigating to a target location, and then placing the object at the target location. Galactic is fast. In terms of simulation speed (rendering + physics), Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was designed to optimize the entire rendering + physics + RL interplay since any bottleneck in the interplay slows down training. In terms of simulation+RL speed (rendering + physics + inference + learning), Galactic achieves over 108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS). These massive speed-ups not only drastically cut the wall-clock training time of existing experiments, but also unlock an unprecedented scale of new experiments. First, Galactic can train a mobile pick skill to >80% accuracy in under 16 minutes, a 100x speedup compared to the over 24 hours it takes to train the same skill in Habitat 2.0. Second, we use Galactic to perform the largest-scale experiment to date for rearrangement using 5B steps of experience in 46 hours, which is equivalent to 20 years of robot experience. This scaling results in a single neural network composed of task-agnostic components achieving 85% success in GeometricGoal rearrangement, compared to 0% success reported in Habitat 2.0 for the same approach. The code is available at github.com/facebookresearch/galactic.

Galactic: Escalando el Aprendizaje por Refuerzo de Extremo a Extremo para Reorganización a 100k Pasos por Segundo

Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Resumen

Support