Роботы предварительно обучают роботов: манипуляционно-центрическое робототехническое представление из крупномасштабного набора данных роботов
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset
October 29, 2024
Авторы: Guangqi Jiang, Yifei Sun, Tao Huang, Huanyu Li, Yongyuan Liang, Huazhe Xu
cs.AI
Аннотация
Предварительное обучение визуальных представлений значительно улучшило эффективность обучения роботов. Из-за отсутствия крупномасштабных наборов данных для роботов в предметной области, предыдущие работы используют видеоматериалы с участием людей для предварительного обучения визуальных представлений для роботов. Несмотря на их многообещающие результаты, представления, полученные из видео с участием людей, неизбежно подвержены сдвигам распределения и лишены важной динамической информации для завершения задач. Сначала мы оцениваем различные предварительно обученные представления с точки зрения их корреляции с последующими задачами робототехнического манипулирования (т.е. манипуляционной направленности). Интересно, что мы обнаруживаем, что "манипуляционная направленность" является сильным индикатором успешности при применении к последующим задачам. Исходя из этих результатов, мы предлагаем Манипуляционно-направленное Представление (MCR) - фундаментальную систему обучения представлений, которая учитывает как визуальные особенности, так и динамическую информацию, такую как действия и проприоцептивные данные манипуляционных задач для улучшения манипуляционной направленности. Конкретно, мы предварительно обучаем визуальный кодер на робототехническом наборе данных DROID и используем данные, связанные с движением, такие как проприоцептивные состояния и действия робота. Мы вводим новую контрастную потерю, которая выравнивает визуальные наблюдения с динамикой проприоцептивного состояния и действий робота, в сочетании с потерей актера, подобной клонированию поведения (BC), для предсказания действий во время предварительного обучения, а также потерю временной контрастности. Эмпирические результаты на 4 областях симуляции с 20 задачами подтверждают, что MCR превосходит самый сильный базовый метод на 14,8%. Более того, MCR повышает производительность обучения с использованием данных с UR5e манипулятором на 3 реальных задачах на 76,9%. Веб-сайт проекта: https://robots-pretrain-robots.github.io/.
English
The pre-training of visual representations has enhanced the efficiency of
robot learning. Due to the lack of large-scale in-domain robotic datasets,
prior works utilize in-the-wild human videos to pre-train robotic visual
representation. Despite their promising results, representations from human
videos are inevitably subject to distribution shifts and lack the dynamics
information crucial for task completion. We first evaluate various pre-trained
representations in terms of their correlation to the downstream robotic
manipulation tasks (i.e., manipulation centricity). Interestingly, we find that
the "manipulation centricity" is a strong indicator of success rates when
applied to downstream tasks. Drawing from these findings, we propose
Manipulation Centric Representation (MCR), a foundation representation learning
framework capturing both visual features and the dynamics information such as
actions and proprioceptions of manipulation tasks to improve manipulation
centricity. Specifically, we pre-train a visual encoder on the DROID robotic
dataset and leverage motion-relevant data such as robot proprioceptive states
and actions. We introduce a novel contrastive loss that aligns visual
observations with the robot's proprioceptive state-action dynamics, combined
with a behavior cloning (BC)-like actor loss to predict actions during
pre-training, along with a time contrastive loss. Empirical results across 4
simulation domains with 20 tasks verify that MCR outperforms the strongest
baseline method by 14.8%. Moreover, MCR boosts the performance of
data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project
website: https://robots-pretrain-robots.github.io/.Summary
AI-Generated Summary