Pre-training van auto-regressieve robotmodellen met 4D-representaties
Pre-training Auto-regressive Robotic Models with 4D Representations
February 18, 2025
Auteurs: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI
Samenvatting
Foundation models die vooraf zijn getraind op enorme, ongelabelde datasets hebben een revolutie teweeggebracht in natuurlijke taalverwerking en computervisie, waarbij ze opmerkelijke generalisatiecapaciteiten vertonen, wat het belang van voorafgaande training benadrukt. Toch hebben inspanningen in de robotica moeite gehad om vergelijkbaar succes te behalen, beperkt door de noodzaak van kostbare robotannotaties of het ontbreken van representaties die de fysieke wereld effectief modelleren. In dit artikel introduceren we ARM4R, een Auto-regressief Robotmodel dat gebruikmaakt van laagniveau 4D-representaties die zijn geleerd van menselijke videodata om een beter vooraf getraind robotmodel te creëren. Specifiek richten we ons op het gebruik van 3D-puntvolgrepresentaties uit video's die zijn afgeleid door 2D-representaties naar 3D-ruimte te tillen via monoculaire diepteschatting over tijd. Deze 4D-representaties behouden een gedeelde geometrische structuur tussen de punten en robotstatusrepresentaties tot op een lineaire transformatie, wat efficiënte transfer learning van menselijke videodata naar laagniveau robotbesturing mogelijk maakt. Onze experimenten tonen aan dat ARM4R efficiënt kan overstappen van menselijke videodata naar robotica en consequent de prestaties verbetert bij taken in verschillende robotomgevingen en configuraties.
English
Foundation models pre-trained on massive unlabeled datasets have
revolutionized natural language and computer vision, exhibiting remarkable
generalization capabilities, thus highlighting the importance of pre-training.
Yet, efforts in robotics have struggled to achieve similar success, limited by
either the need for costly robotic annotations or the lack of representations
that effectively model the physical world. In this paper, we introduce ARM4R,
an Auto-regressive Robotic Model that leverages low-level 4D Representations
learned from human video data to yield a better pre-trained robotic model.
Specifically, we focus on utilizing 3D point tracking representations from
videos derived by lifting 2D representations into 3D space via monocular depth
estimation across time. These 4D representations maintain a shared geometric
structure between the points and robot state representations up to a linear
transformation, enabling efficient transfer learning from human video data to
low-level robotic control. Our experiments show that ARM4R can transfer
efficiently from human video data to robotics and consistently improves
performance on tasks across various robot environments and configurations.Summary
AI-Generated Summary