Pré-entraînement de modèles robotiques auto-régressifs avec des représentations 4D
Pre-training Auto-regressive Robotic Models with 4D Representations
February 18, 2025
Auteurs: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI
Résumé
Les modèles de base pré-entraînés sur d'immenses ensembles de données non annotées ont révolutionné le traitement du langage naturel et la vision par ordinateur, démontrant des capacités de généralisation remarquables, soulignant ainsi l'importance du pré-entraînement. Cependant, les efforts dans le domaine de la robotique peinent à atteindre un succès similaire, limités soit par le besoin d'annotations robotiques coûteuses, soit par l'absence de représentations qui modélisent efficacement le monde physique. Dans cet article, nous présentons ARM4R, un modèle robotique auto-régressif qui exploite des représentations 4D de bas niveau apprises à partir de vidéos humaines pour produire un meilleur modèle robotique pré-entraîné. Plus précisément, nous nous concentrons sur l'utilisation de représentations de suivi de points 3D issues de vidéos, obtenues en projetant des représentations 2D dans l'espace 3D via l'estimation de profondeur monoculaire au fil du temps. Ces représentations 4D maintiennent une structure géométrique commune entre les points et les représentations de l'état du robot jusqu'à une transformation linéaire, permettant un transfert d'apprentissage efficace des vidéos humaines vers le contrôle robotique de bas niveau. Nos expériences montrent qu'ARM4R peut transférer efficacement les connaissances des vidéos humaines à la robotique et améliore de manière constante les performances sur des tâches dans divers environnements et configurations robotiques.
English
Foundation models pre-trained on massive unlabeled datasets have
revolutionized natural language and computer vision, exhibiting remarkable
generalization capabilities, thus highlighting the importance of pre-training.
Yet, efforts in robotics have struggled to achieve similar success, limited by
either the need for costly robotic annotations or the lack of representations
that effectively model the physical world. In this paper, we introduce ARM4R,
an Auto-regressive Robotic Model that leverages low-level 4D Representations
learned from human video data to yield a better pre-trained robotic model.
Specifically, we focus on utilizing 3D point tracking representations from
videos derived by lifting 2D representations into 3D space via monocular depth
estimation across time. These 4D representations maintain a shared geometric
structure between the points and robot state representations up to a linear
transformation, enabling efficient transfer learning from human video data to
low-level robotic control. Our experiments show that ARM4R can transfer
efficiently from human video data to robotics and consistently improves
performance on tasks across various robot environments and configurations.Summary
AI-Generated Summary