Aprendizado por Reforço Offline Robótico a partir de Vídeos da Internet via Pré-Treinamento de Função de Valor
Robotic Offline RL from Internet Videos via Value-Function Pre-Training
September 22, 2023
Autores: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI
Resumo
O pré-treinamento em dados da Internet provou ser um ingrediente essencial para a generalização ampla em muitos sistemas modernos de aprendizado de máquina (ML). O que seria necessário para habilitar tais capacidades no aprendizado por reforço (RL) robótico? Métodos de RL offline, que aprendem a partir de conjuntos de dados de experiência robótica, oferecem uma maneira de aproveitar dados prévios no pipeline de aprendizado robótico. No entanto, esses métodos apresentam uma "incompatibilidade de tipo" com dados de vídeo (como o Ego4D), os maiores conjuntos de dados disponíveis para robótica, já que os vídeos oferecem apenas experiência de observação, sem as anotações de ação ou recompensa necessárias para métodos de RL. Neste artigo, desenvolvemos um sistema para aproveitar grandes conjuntos de dados de vídeos humanos em RL offline robótico, baseado inteiramente no aprendizado de funções de valor por meio de aprendizado por diferença temporal. Mostramos que o aprendizado de valor em conjuntos de dados de vídeo aprende representações que são mais propícias ao RL offline robótico subsequente do que outras abordagens para aprender a partir de dados de vídeo. Nosso sistema, chamado V-PTR, combina os benefícios do pré-treinamento em dados de vídeo com abordagens de RL offline robótico que treinam em dados robóticos diversos, resultando em funções de valor e políticas para tarefas de manipulação que apresentam melhor desempenho, agem de forma robusta e generalizam amplamente. Em várias tarefas de manipulação em um robô WidowX real, nosso framework produz políticas que melhoram significativamente em relação a métodos anteriores. Nosso vídeo e detalhes adicionais podem ser encontrados em https://dibyaghosh.com/vptr/.
English
Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/