Масштабирование кросс-телесного обучения: одна стратегия для манипуляции, навигации, передвижения и авиации.
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation
August 21, 2024
Авторы: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI
Аннотация
Современные системы машинного обучения полагаются на большие наборы данных для достижения широкой обобщаемости, что часто представляет собой вызов в области обучения роботов, где каждая робототехническая платформа и задача могут иметь только небольшой набор данных. Обучая одну политику на различных видах роботов, метод обучения роботов может воспользоваться гораздо более широкими и разнообразными наборами данных, что в свою очередь может привести к лучшей обобщаемости и устойчивости. Однако обучение одной политики на мульти-роботных данных является сложной задачей из-за широкого разнообразия датчиков, исполнительных устройств и частоты управления у роботов. Мы предлагаем CrossFormer, масштабируемую и гибкую политику на основе трансформера, способную обрабатывать данные из любого воплощения. Мы обучаем CrossFormer на самом большом и разнообразном наборе данных на сегодняшний день, включающем 900 тыс. траекторий на 20 различных воплощениях роботов. Мы демонстрируем, что одни и те же веса сети могут управлять сильно отличающимися роботами, включая системы манипуляции с одним и двумя руками, колесные роботы, квадрокоптеры и четвероногих. В отличие от предыдущих работ, наша модель не требует ручного выравнивания пространств наблюдения или действий. Обширные эксперименты в реальном мире показывают, что наш метод соответствует производительности специализированных политик, настроенных для каждого воплощения, при этом значительно превосходит предыдущий уровень в области обучения на различных воплощениях.
English
Modern machine learning systems rely on large datasets to attain broad
generalization, and this often poses a challenge in robot learning, where each
robotic platform and task might have only a small dataset. By training a single
policy across many different kinds of robots, a robot learning method can
leverage much broader and more diverse datasets, which in turn can lead to
better generalization and robustness. However, training a single policy on
multi-robot data is challenging because robots can have widely varying sensors,
actuators, and control frequencies. We propose CrossFormer, a scalable and
flexible transformer-based policy that can consume data from any embodiment. We
train CrossFormer on the largest and most diverse dataset to date, 900K
trajectories across 20 different robot embodiments. We demonstrate that the
same network weights can control vastly different robots, including single and
dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds.
Unlike prior work, our model does not require manual alignment of the
observation or action spaces. Extensive experiments in the real world show that
our method matches the performance of specialist policies tailored for each
embodiment, while also significantly outperforming the prior state of the art
in cross-embodiment learning.Summary
AI-Generated Summary