ChatPaper.aiChatPaper

Роботы предварительно обучают роботов: манипуляционно-центрическое робототехническое представление из крупномасштабного набора данных роботов

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

October 29, 2024
Авторы: Guangqi Jiang, Yifei Sun, Tao Huang, Huanyu Li, Yongyuan Liang, Huazhe Xu
cs.AI

Аннотация

Предварительное обучение визуальных представлений значительно улучшило эффективность обучения роботов. Из-за отсутствия крупномасштабных наборов данных для роботов в предметной области, предыдущие работы используют видеоматериалы с участием людей для предварительного обучения визуальных представлений для роботов. Несмотря на их многообещающие результаты, представления, полученные из видео с участием людей, неизбежно подвержены сдвигам распределения и лишены важной динамической информации для завершения задач. Сначала мы оцениваем различные предварительно обученные представления с точки зрения их корреляции с последующими задачами робототехнического манипулирования (т.е. манипуляционной направленности). Интересно, что мы обнаруживаем, что "манипуляционная направленность" является сильным индикатором успешности при применении к последующим задачам. Исходя из этих результатов, мы предлагаем Манипуляционно-направленное Представление (MCR) - фундаментальную систему обучения представлений, которая учитывает как визуальные особенности, так и динамическую информацию, такую как действия и проприоцептивные данные манипуляционных задач для улучшения манипуляционной направленности. Конкретно, мы предварительно обучаем визуальный кодер на робототехническом наборе данных DROID и используем данные, связанные с движением, такие как проприоцептивные состояния и действия робота. Мы вводим новую контрастную потерю, которая выравнивает визуальные наблюдения с динамикой проприоцептивного состояния и действий робота, в сочетании с потерей актера, подобной клонированию поведения (BC), для предсказания действий во время предварительного обучения, а также потерю временной контрастности. Эмпирические результаты на 4 областях симуляции с 20 задачами подтверждают, что MCR превосходит самый сильный базовый метод на 14,8%. Более того, MCR повышает производительность обучения с использованием данных с UR5e манипулятором на 3 реальных задачах на 76,9%. Веб-сайт проекта: https://robots-pretrain-robots.github.io/.
English
The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the "manipulation centricity" is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot's proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.

Summary

AI-Generated Summary

PDF102November 16, 2024