Роботизированное обучение с подкреплением без взаимодействия с окружением на основе интернет-видео через предварительное обучение функции ценности
Robotic Offline RL from Internet Videos via Value-Function Pre-Training
September 22, 2023
Авторы: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI
Аннотация
Предварительное обучение на интернет-данных доказало свою важность для достижения широкой обобщающей способности во многих современных системах машинного обучения. Что необходимо для реализации таких возможностей в роботизированном обучении с подкреплением (RL)? Методы оффлайн RL, которые обучаются на наборах данных из опыта роботов, предлагают один из способов использования предварительных данных в процессе обучения роботов. Однако эти методы имеют "типовое несоответствие" с видеоданными (такими как Ego4D), крупнейшими доступными наборами данных для робототехники, поскольку видео предоставляет только наблюдательный опыт без аннотаций действий или наград, необходимых для методов RL. В данной статье мы разрабатываем систему для использования крупномасштабных наборов видеоданных человека в роботизированном оффлайн RL, основанную исключительно на обучении функций ценности через временные различия. Мы показываем, что обучение функций ценности на видеоданных создает представления, которые более способствуют последующему роботизированному оффлайн RL, чем другие подходы к обучению на видеоданных. Наша система, называемая V-PTR, сочетает преимущества предварительного обучения на видеоданных с подходами роботизированного оффлайн RL, которые обучаются на разнообразных данных роботов, что приводит к функциям ценности и политикам для задач манипуляции, которые работают лучше, действуют устойчиво и обобщают широко. На нескольких задачах манипуляции на реальном роботе WidowX наш фреймворк создает политики, которые значительно превосходят предыдущие методы. Наше видео и дополнительные детали можно найти по адресу https://dibyaghosh.com/vptr/.
English
Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/