Galactic: Масштабирование сквозного обучения с подкреплением для задач перестановки со скоростью 100 тысяч шагов в секунду
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second
June 13, 2023
Авторы: Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander
cs.AI
Аннотация
Мы представляем Galactic — масштабируемую платформу для симуляции и обучения с подкреплением (RL), предназначенную для мобильной манипуляции роботов в условиях помещений. В частности, робот Fetch (оснащённый мобильной базой, 7-степенным манипулятором, RGBD-камерой, эгомоцией и бортовыми датчиками) размещается в домашней среде и получает задание переставлять объекты — перемещаясь к объекту, поднимая его, перемещаясь к целевой точке и затем размещая объект в нужном месте.
Galactic отличается высокой скоростью. По показателям скорости симуляции (рендеринг + физика) Galactic достигает более 421 000 шагов в секунду (SPS) на узле с 8 GPU, что в 54 раза быстрее, чем Habitat 2.0 (7699 SPS). Важно отметить, что Galactic был разработан для оптимизации всего процесса взаимодействия рендеринга, физики и RL, поскольку любое узкое место в этом взаимодействии замедляет обучение. По показателям скорости симуляции+RL (рендеринг + физика + вывод + обучение) Galactic достигает более 108 000 SPS, что в 88 раз быстрее, чем Habitat 2.0 (1243 SPS).
Эти значительные ускорения не только радикально сокращают время обучения в существующих экспериментах, но и открывают возможность проведения экспериментов беспрецедентного масштаба. Во-первых, Galactic может обучить навыку мобильного захвата с точностью >80% менее чем за 16 минут, что в 100 раз быстрее, чем 24 часа, необходимые для обучения тому же навыку в Habitat 2.0. Во-вторых, мы использовали Galactic для проведения крупнейшего на сегодняшний день эксперимента по перестановке объектов, используя 5 миллиардов шагов опыта за 46 часов, что эквивалентно 20 годам работы робота. Этот масштаб позволил создать единую нейронную сеть, состоящую из компонентов, не зависящих от задачи, которая достигает 85% успеха в задаче GeometricGoal, по сравнению с 0% успеха, зафиксированного в Habitat 2.0 для того же подхода. Код доступен на github.com/facebookresearch/galactic.
English
We present Galactic, a large-scale simulation and reinforcement-learning (RL)
framework for robotic mobile manipulation in indoor environments. Specifically,
a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion,
and onboard sensing) is spawned in a home environment and asked to rearrange
objects - by navigating to an object, picking it up, navigating to a target
location, and then placing the object at the target location.
Galactic is fast. In terms of simulation speed (rendering + physics),
Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which
is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was
designed to optimize the entire rendering + physics + RL interplay since any
bottleneck in the interplay slows down training. In terms of simulation+RL
speed (rendering + physics + inference + learning), Galactic achieves over
108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS).
These massive speed-ups not only drastically cut the wall-clock training time
of existing experiments, but also unlock an unprecedented scale of new
experiments. First, Galactic can train a mobile pick skill to >80% accuracy in
under 16 minutes, a 100x speedup compared to the over 24 hours it takes to
train the same skill in Habitat 2.0. Second, we use Galactic to perform the
largest-scale experiment to date for rearrangement using 5B steps of experience
in 46 hours, which is equivalent to 20 years of robot experience. This scaling
results in a single neural network composed of task-agnostic components
achieving 85% success in GeometricGoal rearrangement, compared to 0% success
reported in Habitat 2.0 for the same approach. The code is available at
github.com/facebookresearch/galactic.