Предварительное обучение авторегрессивных роботизированных моделей с использованием 4D-представлений
Pre-training Auto-regressive Robotic Models with 4D Representations
February 18, 2025
Авторы: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI
Аннотация
Фундаментальные модели, предварительно обученные на огромных наборах неразмеченных данных, произвели революцию в области обработки естественного языка и компьютерного зрения, демонстрируя выдающиеся способности к обобщению, что подчеркивает важность предварительного обучения. Однако в робототехнике подобные успехи остаются труднодостижимыми из-за необходимости в дорогостоящих аннотациях для роботов или отсутствия представлений, эффективно моделирующих физический мир. В данной статье мы представляем ARM4R — авторегрессионную роботизированную модель, которая использует низкоуровневые 4D-представления, извлеченные из видеоданных человека, для создания более эффективной предварительно обученной роботизированной модели. В частности, мы сосредоточились на использовании 3D-представлений отслеживания точек из видео, полученных путем преобразования 2D-представлений в 3D-пространство с помощью монохромной оценки глубины во времени. Эти 4D-представления сохраняют общую геометрическую структуру между точками и представлениями состояния робота с точностью до линейного преобразования, что позволяет эффективно переносить знания из видеоданных человека на низкоуровневое управление роботами. Наши эксперименты показывают, что ARM4R эффективно переносит знания из видеоданных человека в робототехнику и стабильно улучшает производительность в задачах, охватывающих различные среды и конфигурации роботов.
English
Foundation models pre-trained on massive unlabeled datasets have
revolutionized natural language and computer vision, exhibiting remarkable
generalization capabilities, thus highlighting the importance of pre-training.
Yet, efforts in robotics have struggled to achieve similar success, limited by
either the need for costly robotic annotations or the lack of representations
that effectively model the physical world. In this paper, we introduce ARM4R,
an Auto-regressive Robotic Model that leverages low-level 4D Representations
learned from human video data to yield a better pre-trained robotic model.
Specifically, we focus on utilizing 3D point tracking representations from
videos derived by lifting 2D representations into 3D space via monocular depth
estimation across time. These 4D representations maintain a shared geometric
structure between the points and robot state representations up to a linear
transformation, enabling efficient transfer learning from human video data to
low-level robotic control. Our experiments show that ARM4R can transfer
efficiently from human video data to robotics and consistently improves
performance on tasks across various robot environments and configurations.