ChatPaper.aiChatPaper

Preentrenamiento de Modelos Robóticos Autoregresivos con Representaciones 4D

Pre-training Auto-regressive Robotic Models with 4D Representations

February 18, 2025
Autores: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI

Resumen

Los modelos base preentrenados en grandes conjuntos de datos no etiquetados han revolucionado el procesamiento del lenguaje natural y la visión por computadora, exhibiendo capacidades de generalización notables, lo que destaca la importancia del preentrenamiento. Sin embargo, los esfuerzos en robótica han tenido dificultades para alcanzar un éxito similar, limitados ya sea por la necesidad de anotaciones robóticas costosas o por la falta de representaciones que modelen eficazmente el mundo físico. En este artículo, presentamos ARM4R, un Modelo Robótico Autoregresivo que aprovecha representaciones 4D de bajo nivel aprendidas a partir de datos de vídeo humanos para obtener un modelo robótico preentrenado mejorado. Específicamente, nos enfocamos en utilizar representaciones de seguimiento de puntos 3D a partir de vídeos, derivadas al elevar representaciones 2D al espacio 3D mediante estimación de profundidad monocular a lo largo del tiempo. Estas representaciones 4D mantienen una estructura geométrica compartida entre los puntos y las representaciones del estado del robot hasta una transformación lineal, lo que permite una transferencia eficiente del aprendizaje desde datos de vídeo humanos al control robótico de bajo nivel. Nuestros experimentos muestran que ARM4R puede transferirse eficientemente desde datos de vídeo humanos a la robótica y mejora consistentemente el rendimiento en tareas en diversos entornos y configuraciones robóticas.
English
Foundation models pre-trained on massive unlabeled datasets have revolutionized natural language and computer vision, exhibiting remarkable generalization capabilities, thus highlighting the importance of pre-training. Yet, efforts in robotics have struggled to achieve similar success, limited by either the need for costly robotic annotations or the lack of representations that effectively model the physical world. In this paper, we introduce ARM4R, an Auto-regressive Robotic Model that leverages low-level 4D Representations learned from human video data to yield a better pre-trained robotic model. Specifically, we focus on utilizing 3D point tracking representations from videos derived by lifting 2D representations into 3D space via monocular depth estimation across time. These 4D representations maintain a shared geometric structure between the points and robot state representations up to a linear transformation, enabling efficient transfer learning from human video data to low-level robotic control. Our experiments show that ARM4R can transfer efficiently from human video data to robotics and consistently improves performance on tasks across various robot environments and configurations.

Summary

AI-Generated Summary

PDF52February 19, 2025