ChatPaper.aiChatPaper

Aprendizaje por Refuerzo Robótico Offline a partir de Vídeos de Internet mediante Preentrenamiento de Funciones de Valor

Robotic Offline RL from Internet Videos via Value-Function Pre-Training

September 22, 2023
Autores: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI

Resumen

El preentrenamiento con datos de Internet ha demostrado ser un ingrediente clave para la generalización amplia en muchos sistemas modernos de aprendizaje automático (ML). ¿Qué se necesitaría para habilitar tales capacidades en el aprendizaje por refuerzo (RL) robótico? Los métodos de RL fuera de línea, que aprenden de conjuntos de datos de experiencia robótica, ofrecen una forma de aprovechar datos previos en la canalización de aprendizaje robótico. Sin embargo, estos métodos tienen un "desajuste de tipo" con los datos de video (como Ego4D), los conjuntos de datos previos más grandes disponibles para robótica, ya que el video ofrece experiencia solo de observación sin las anotaciones de acción o recompensa necesarias para los métodos de RL. En este artículo, desarrollamos un sistema para aprovechar grandes conjuntos de datos de video humano en RL robótico fuera de línea, basado completamente en el aprendizaje de funciones de valor mediante aprendizaje por diferencias temporales. Mostramos que el aprendizaje de valor en conjuntos de datos de video aprende representaciones que son más propicias para el RL robótico fuera de línea que otros enfoques para aprender de datos de video. Nuestro sistema, llamado V-PTR, combina los beneficios del preentrenamiento con datos de video con enfoques de RL robótico fuera de línea que entrenan con datos robóticos diversos, lo que resulta en funciones de valor y políticas para tareas de manipulación que funcionan mejor, actúan de manera robusta y generalizan ampliamente. En varias tareas de manipulación en un robot WidowX real, nuestro marco produce políticas que mejoran significativamente sobre métodos anteriores. Nuestro video y detalles adicionales se pueden encontrar en https://dibyaghosh.com/vptr/.
English
Pre-training on Internet data has proven to be a key ingredient for broad generalization in many modern ML systems. What would it take to enable such capabilities in robotic reinforcement learning (RL)? Offline RL methods, which learn from datasets of robot experience, offer one way to leverage prior data into the robotic learning pipeline. However, these methods have a "type mismatch" with video data (such as Ego4D), the largest prior datasets available for robotics, since video offers observation-only experience without the action or reward annotations needed for RL methods. In this paper, we develop a system for leveraging large-scale human video datasets in robotic offline RL, based entirely on learning value functions via temporal-difference learning. We show that value learning on video datasets learns representations that are more conducive to downstream robotic offline RL than other approaches for learning from video data. Our system, called V-PTR, combines the benefits of pre-training on video data with robotic offline RL approaches that train on diverse robot data, resulting in value functions and policies for manipulation tasks that perform better, act robustly, and generalize broadly. On several manipulation tasks on a real WidowX robot, our framework produces policies that greatly improve over prior methods. Our video and additional details can be found at https://dibyaghosh.com/vptr/
PDF80December 15, 2024