Pré-treinamento de Modelos Robóticos Auto-regressivos com Representações 4D
Pre-training Auto-regressive Robotic Models with 4D Representations
February 18, 2025
Autores: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI
Resumo
Modelos de base pré-treinados em grandes conjuntos de dados não rotulados revolucionaram o processamento de linguagem natural e a visão computacional, exibindo capacidades notáveis de generalização, destacando assim a importância do pré-treinamento. No entanto, os esforços na área de robótica têm enfrentado dificuldades para alcançar sucesso semelhante, limitados pela necessidade de anotações robóticas custosas ou pela falta de representações que modelam efetivamente o mundo físico. Neste artigo, apresentamos o ARM4R, um Modelo Robótico Auto-regressivo que aproveita representações 4D de baixo nível aprendidas a partir de dados de vídeos humanos para produzir um modelo robótico pré-treinado mais eficaz. Especificamente, focamos na utilização de representações de rastreamento de pontos 3D a partir de vídeos, obtidas ao elevar representações 2D para o espaço 3D por meio de estimativa de profundidade monocular ao longo do tempo. Essas representações 4D mantêm uma estrutura geométrica compartilhada entre os pontos e as representações do estado do robô, até uma transformação linear, permitindo uma transferência eficiente de aprendizado de dados de vídeos humanos para o controle de baixo nível em robótica. Nossos experimentos mostram que o ARM4R pode transferir conhecimento de forma eficiente a partir de vídeos humanos para a robótica e melhora consistentemente o desempenho em tarefas em diversos ambientes e configurações robóticas.
English
Foundation models pre-trained on massive unlabeled datasets have
revolutionized natural language and computer vision, exhibiting remarkable
generalization capabilities, thus highlighting the importance of pre-training.
Yet, efforts in robotics have struggled to achieve similar success, limited by
either the need for costly robotic annotations or the lack of representations
that effectively model the physical world. In this paper, we introduce ARM4R,
an Auto-regressive Robotic Model that leverages low-level 4D Representations
learned from human video data to yield a better pre-trained robotic model.
Specifically, we focus on utilizing 3D point tracking representations from
videos derived by lifting 2D representations into 3D space via monocular depth
estimation across time. These 4D representations maintain a shared geometric
structure between the points and robot state representations up to a linear
transformation, enabling efficient transfer learning from human video data to
low-level robotic control. Our experiments show that ARM4R can transfer
efficiently from human video data to robotics and consistently improves
performance on tasks across various robot environments and configurations.Summary
AI-Generated Summary