ChatPaper.aiChatPaper

Pre-addestramento di Modelli Robotici Auto-regressivi con Rappresentazioni 4D

Pre-training Auto-regressive Robotic Models with 4D Representations

February 18, 2025
Autori: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI

Abstract

I modelli foundation pre-addestrati su enormi dataset non etichettati hanno rivoluzionato il campo del linguaggio naturale e della visione artificiale, dimostrando notevoli capacità di generalizzazione, evidenziando così l'importanza del pre-addestramento. Tuttavia, gli sforzi nel campo della robotica hanno faticato a raggiungere un successo simile, limitati sia dalla necessità di costose annotazioni robotiche che dalla mancanza di rappresentazioni che modellino efficacemente il mondo fisico. In questo articolo, presentiamo ARM4R, un Modello Robotico Auto-regressivo che sfrutta rappresentazioni 4D di basso livello apprese da dati video umani per ottenere un modello robotico pre-addestrato migliore. Nello specifico, ci concentriamo sull'utilizzo di rappresentazioni di tracciamento 3D da video, ottenute sollevando rappresentazioni 2D nello spazio 3D tramite stima della profondità monoculare nel tempo. Queste rappresentazioni 4D mantengono una struttura geometrica condivisa tra i punti e le rappresentazioni dello stato del robot fino a una trasformazione lineare, consentendo un trasferimento efficiente dell'apprendimento dai dati video umani al controllo robotico di basso livello. I nostri esperimenti dimostrano che ARM4R può trasferire efficacemente i dati video umani alla robotica e migliora costantemente le prestazioni su compiti in vari ambienti e configurazioni robotiche.
English
Foundation models pre-trained on massive unlabeled datasets have revolutionized natural language and computer vision, exhibiting remarkable generalization capabilities, thus highlighting the importance of pre-training. Yet, efforts in robotics have struggled to achieve similar success, limited by either the need for costly robotic annotations or the lack of representations that effectively model the physical world. In this paper, we introduce ARM4R, an Auto-regressive Robotic Model that leverages low-level 4D Representations learned from human video data to yield a better pre-trained robotic model. Specifically, we focus on utilizing 3D point tracking representations from videos derived by lifting 2D representations into 3D space via monocular depth estimation across time. These 4D representations maintain a shared geometric structure between the points and robot state representations up to a linear transformation, enabling efficient transfer learning from human video data to low-level robotic control. Our experiments show that ARM4R can transfer efficiently from human video data to robotics and consistently improves performance on tasks across various robot environments and configurations.

Summary

AI-Generated Summary

PDF52February 19, 2025