ChatPaper.aiChatPaper

Robôs Pré-treinam Robôs: Representação Robótica Centrada na Manipulação a partir de Conjunto de Dados de Robô em Grande Escala

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

October 29, 2024
Autores: Guangqi Jiang, Yifei Sun, Tao Huang, Huanyu Li, Yongyuan Liang, Huazhe Xu
cs.AI

Resumo

O pré-treinamento de representações visuais tem aprimorado a eficiência do aprendizado de robôs. Devido à falta de conjuntos de dados robóticos em grande escala no domínio específico, trabalhos anteriores utilizam vídeos de humanos em ambientes naturais para pré-treinar a representação visual robótica. Apesar dos resultados promissores, as representações de vídeos humanos estão inevitavelmente sujeitas a mudanças de distribuição e carecem das informações dinâmicas cruciais para a conclusão de tarefas. Primeiramente, avaliamos várias representações pré-treinadas em termos de sua correlação com as tarefas robóticas subsequentes (ou seja, centralidade na manipulação). Interessantemente, descobrimos que a "centralidade na manipulação" é um forte indicador das taxas de sucesso quando aplicadas a tarefas subsequentes. Com base nesses achados, propomos a Representação Centrada na Manipulação (RCM), um framework de aprendizado de representação fundamental que captura tanto características visuais quanto informações dinâmicas, como ações e propriocepções de tarefas de manipulação, para melhorar a centralidade na manipulação. Especificamente, pré-treinamos um codificador visual no conjunto de dados robóticos DROID e utilizamos dados relevantes de movimento, como estados proprioceptivos do robô e ações. Introduzimos uma nova perda contrastiva que alinha observações visuais com a dinâmica estado-ação proprioceptiva do robô, combinada com uma perda de ator semelhante à clonagem de comportamento (BC) para prever ações durante o pré-treinamento, juntamente com uma perda contrastiva temporal. Resultados empíricos em 4 domínios de simulação com 20 tarefas confirmam que a RCM supera o método de referência mais forte em 14,8%. Além disso, a RCM melhora o desempenho da aprendizagem eficiente de dados com um braço UR5e em 3 tarefas do mundo real em 76,9%. Website do projeto: https://robots-pretrain-robots.github.io/.
English
The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the "manipulation centricity" is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot's proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.

Summary

AI-Generated Summary

PDF102November 16, 2024