Robotische Offline RL van internetvideo's via vooraf trainen van waardefuncties
Robotic Offline RL from Internet Videos via Value-Function Pre-Training
September 22, 2023
Auteurs: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI
Samenvatting
Vooraf trainen op internetgegevens is een cruciaal ingrediënt gebleken voor brede generalisatie in veel moderne ML-systemen. Wat zou er nodig zijn om dergelijke mogelijkheden mogelijk te maken in robotische reinforcement learning (RL)? Offline RL-methoden, die leren van datasets met robotervaring, bieden een manier om bestaande gegevens te benutten in het robotische leerproces. Deze methoden hebben echter een "type mismatch" met videogegevens (zoals Ego4D), de grootste beschikbare datasets voor robotica, omdat video alleen observatie-ervaring biedt zonder de actie- of beloningsannotaties die nodig zijn voor RL-methoden. In dit paper ontwikkelen we een systeem om grootschalige menselijke videodatasets te benutten in robotisch offline RL, volledig gebaseerd op het leren van waardefuncties via temporal-difference learning. We laten zien dat het leren van waarden op videodatasets representaties oplevert die beter geschikt zijn voor downstream robotisch offline RL dan andere benaderingen voor leren van videogegevens. Ons systeem, genaamd V-PTR, combineert de voordelen van vooraf trainen op videogegevens met robotische offline RL-benaderingen die trainen op diverse robotgegevens, wat resulteert in waardefuncties en beleidsregels voor manipulatietaken die beter presteren, robuust handelen en breed generaliseren. Op verschillende manipulatietaken op een echte WidowX-robot produceert ons framework beleidsregels die aanzienlijk beter presteren dan eerdere methoden. Onze video en aanvullende details zijn te vinden op https://dibyaghosh.com/vptr/.
English
Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/