Escalonamento do Aprendizado Cruzado Incorporado: Uma Política para Manipulação, Navegação, Locomoção e Aviação
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation
August 21, 2024
Autores: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine
cs.AI
Resumo
Os sistemas modernos de aprendizado de máquina dependem de grandes conjuntos de dados para alcançar uma generalização ampla, o que frequentemente representa um desafio na aprendizagem de robôs, onde cada plataforma robótica e tarefa podem ter apenas um pequeno conjunto de dados. Ao treinar uma única política em diversos tipos de robôs, um método de aprendizado de robôs pode aproveitar conjuntos de dados muito mais amplos e diversos, o que, por sua vez, pode levar a uma melhor generalização e robustez. No entanto, treinar uma única política em dados de vários robôs é desafiador porque os robôs podem ter sensores, atuadores e frequências de controle amplamente variados. Propomos o CrossFormer, uma política escalável e flexível baseada em transformer que pode consumir dados de qualquer configuração. Treinamos o CrossFormer no maior e mais diversificado conjunto de dados até o momento, com 900 mil trajetórias em 20 configurações de robôs diferentes. Demonstramos que os mesmos pesos de rede podem controlar robôs muito diferentes, incluindo sistemas de manipulação de braço único e duplo, robôs com rodas, quadricópteros e quadrúpedes. Ao contrário de trabalhos anteriores, nosso modelo não requer alinhamento manual dos espaços de observação ou ação. Experimentos extensivos no mundo real mostram que nosso método iguala o desempenho de políticas especializadas adaptadas para cada configuração, enquanto também supera significativamente o estado da arte anterior em aprendizado entre configurações.
English
Modern machine learning systems rely on large datasets to attain broad
generalization, and this often poses a challenge in robot learning, where each
robotic platform and task might have only a small dataset. By training a single
policy across many different kinds of robots, a robot learning method can
leverage much broader and more diverse datasets, which in turn can lead to
better generalization and robustness. However, training a single policy on
multi-robot data is challenging because robots can have widely varying sensors,
actuators, and control frequencies. We propose CrossFormer, a scalable and
flexible transformer-based policy that can consume data from any embodiment. We
train CrossFormer on the largest and most diverse dataset to date, 900K
trajectories across 20 different robot embodiments. We demonstrate that the
same network weights can control vastly different robots, including single and
dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds.
Unlike prior work, our model does not require manual alignment of the
observation or action spaces. Extensive experiments in the real world show that
our method matches the performance of specialist policies tailored for each
embodiment, while also significantly outperforming the prior state of the art
in cross-embodiment learning.Summary
AI-Generated Summary