Escalado del Aprendizaje Cruzado-Encarnado: Una Política para Manipulación, Navegación, Locomoción y Aviación.
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation
August 21, 2024
Autores: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI
Resumen
Los sistemas modernos de aprendizaje automático dependen de conjuntos de datos extensos para lograr una generalización amplia, lo cual a menudo plantea un desafío en el aprendizaje de robots, donde cada plataforma y tarea robótica pueden tener solo un conjunto de datos pequeño. Al entrenar una única política en varios tipos de robots diferentes, un método de aprendizaje de robots puede aprovechar conjuntos de datos mucho más amplios y diversos, lo que a su vez puede llevar a una mejor generalización y robustez. Sin embargo, entrenar una única política en datos de múltiples robots es desafiante porque los robots pueden tener sensores, actuadores y frecuencias de control muy variables. Proponemos CrossFormer, una política basada en transformers escalable y flexible que puede procesar datos de cualquier representación. Entrenamos CrossFormer en el conjunto de datos más grande y diverso hasta la fecha, con 900K trayectorias a través de 20 representaciones de robots diferentes. Demostramos que los mismos pesos de red pueden controlar robots muy diferentes, incluyendo sistemas de manipulación de un solo y doble brazo, robots con ruedas, cuadricópteros y cuadrúpedos. A diferencia de trabajos anteriores, nuestro modelo no requiere alineación manual de los espacios de observación o acción. Experimentos extensos en el mundo real muestran que nuestro método iguala el rendimiento de políticas especializadas adaptadas para cada representación, al mismo tiempo que supera significativamente el estado del arte previo en el aprendizaje entre representaciones.
English
Modern machine learning systems rely on large datasets to attain broad
generalization, and this often poses a challenge in robot learning, where each
robotic platform and task might have only a small dataset. By training a single
policy across many different kinds of robots, a robot learning method can
leverage much broader and more diverse datasets, which in turn can lead to
better generalization and robustness. However, training a single policy on
multi-robot data is challenging because robots can have widely varying sensors,
actuators, and control frequencies. We propose CrossFormer, a scalable and
flexible transformer-based policy that can consume data from any embodiment. We
train CrossFormer on the largest and most diverse dataset to date, 900K
trajectories across 20 different robot embodiments. We demonstrate that the
same network weights can control vastly different robots, including single and
dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds.
Unlike prior work, our model does not require manual alignment of the
observation or action spaces. Extensive experiments in the real world show that
our method matches the performance of specialist policies tailored for each
embodiment, while also significantly outperforming the prior state of the art
in cross-embodiment learning.Summary
AI-Generated Summary