Apprentissage par renforcement hors ligne robotique à partir de vidéos Internet via un pré-entraînement de fonction de valeur
Robotic Offline RL from Internet Videos via Value-Function Pre-Training
September 22, 2023
Auteurs: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI
Résumé
Le pré-entraînement sur des données Internet s'est avéré être un ingrédient clé pour une généralisation étendue dans de nombreux systèmes modernes d'apprentissage automatique. Que faudrait-il pour permettre de telles capacités dans l'apprentissage par renforcement (RL) robotique ? Les méthodes de RL hors ligne, qui apprennent à partir de jeux de données d'expériences robotiques, offrent une manière d'intégrer des données antérieures dans le pipeline d'apprentissage robotique. Cependant, ces méthodes présentent un "décalage de type" avec les données vidéo (telles que Ego4D), les plus grands jeux de données disponibles pour la robotique, car les vidéos offrent des expériences d'observation uniquement, sans les annotations d'actions ou de récompenses nécessaires pour les méthodes de RL. Dans cet article, nous développons un système pour exploiter des jeux de données vidéo humains à grande échelle dans le RL hors ligne robotique, basé entièrement sur l'apprentissage de fonctions de valeur via l'apprentissage par différence temporelle. Nous montrons que l'apprentissage de valeurs sur des jeux de données vidéo apprend des représentations plus propices au RL hors ligne robotique en aval que d'autres approches d'apprentissage à partir de données vidéo. Notre système, appelé V-PTR, combine les avantages du pré-entraînement sur des données vidéo avec des approches de RL hors ligne robotique qui s'entraînent sur des données robotiques diversifiées, aboutissant à des fonctions de valeur et des politiques pour des tâches de manipulation qui performent mieux, agissent de manière robuste et généralisent largement. Sur plusieurs tâches de manipulation sur un robot WidowX réel, notre framework produit des politiques qui améliorent considérablement les méthodes précédentes. Notre vidéo et des détails supplémentaires sont disponibles à l'adresse https://dibyaghosh.com/vptr/.
English
Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/