Vorabtraining autoregressiver Roboter-Modelle mit 4D-Darstellungen
Pre-training Auto-regressive Robotic Models with 4D Representations
February 18, 2025
Autoren: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI
Zusammenfassung
Foundation Models, die auf umfangreichen unmarkierten Datensätzen vortrainiert wurden, haben die natürliche Sprachverarbeitung und Computer Vision revolutioniert und zeigen bemerkenswerte Generalisierungsfähigkeiten, was die Bedeutung des Vortrainings unterstreicht. Dennoch haben Bemühungen in der Robotik Schwierigkeiten, ähnliche Erfolge zu erzielen, da sie entweder durch den Bedarf an kostspieligen robotischen Annotationen oder durch den Mangel an Repräsentationen, die die physische Welt effektiv modellieren, eingeschränkt sind. In diesem Artikel stellen wir ARM4R vor, ein autoregressives Robotermodell, das niedrigdimensionale 4D-Repräsentationen, die aus menschlichen Videodaten gelernt wurden, nutzt, um ein besser vortrainiertes Robotermodell zu erzeugen. Insbesondere konzentrieren wir uns auf die Verwendung von 3D-Punkt-Tracking-Repräsentationen aus Videos, die durch das Anheben von 2D-Repräsentationen in den 3D-Raum mittels monokularer Tiefenschätzung über die Zeit abgeleitet werden. Diese 4D-Repräsentationen bewahren eine gemeinsame geometrische Struktur zwischen den Punkten und den Roboterzustandsrepräsentationen bis zu einer linearen Transformation, was ein effizientes Transferlernen von menschlichen Videodaten auf niedrigdimensionale Robotersteuerung ermöglicht. Unsere Experimente zeigen, dass ARM4R effizient von menschlichen Videodaten auf die Robotik übertragen werden kann und die Leistung bei Aufgaben in verschiedenen Roboterumgebungen und -konfigurationen konsistent verbessert.
English
Foundation models pre-trained on massive unlabeled datasets have
revolutionized natural language and computer vision, exhibiting remarkable
generalization capabilities, thus highlighting the importance of pre-training.
Yet, efforts in robotics have struggled to achieve similar success, limited by
either the need for costly robotic annotations or the lack of representations
that effectively model the physical world. In this paper, we introduce ARM4R,
an Auto-regressive Robotic Model that leverages low-level 4D Representations
learned from human video data to yield a better pre-trained robotic model.
Specifically, we focus on utilizing 3D point tracking representations from
videos derived by lifting 2D representations into 3D space via monocular depth
estimation across time. These 4D representations maintain a shared geometric
structure between the points and robot state representations up to a linear
transformation, enabling efficient transfer learning from human video data to
low-level robotic control. Our experiments show that ARM4R can transfer
efficiently from human video data to robotics and consistently improves
performance on tasks across various robot environments and configurations.Summary
AI-Generated Summary