Apprendimento per Rinforzo Offline Robotico da Video Internet tramite Pre-Addestramento della Funzione Valore
Robotic Offline RL from Internet Videos via Value-Function Pre-Training
September 22, 2023
Autori: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI
Abstract
Il pre-addestramento su dati provenienti da Internet si è dimostrato un ingrediente chiave per ottenere una generalizzazione ampia in molti sistemi moderni di machine learning. Cosa sarebbe necessario per abilitare tali capacità nell'apprendimento per rinforzo (RL) robotico? I metodi di RL offline, che apprendono da dataset di esperienze robotiche, offrono un modo per sfruttare dati precedenti nel processo di apprendimento robotico. Tuttavia, questi metodi presentano un "disallineamento di tipo" con i dati video (come Ego4D), i più grandi dataset disponibili per la robotica, poiché i video offrono esperienze di sola osservazione senza le annotazioni di azione o ricompensa necessarie per i metodi RL. In questo articolo, sviluppiamo un sistema per sfruttare dataset video umani su larga scala nel RL offline robotico, basato interamente sull'apprendimento di funzioni di valore tramite l'apprendimento a differenza temporale. Dimostriamo che l'apprendimento di valore su dataset video acquisisce rappresentazioni più adatte al RL offline robotico rispetto ad altri approcci per l'apprendimento da dati video. Il nostro sistema, chiamato V-PTR, combina i vantaggi del pre-addestramento su dati video con approcci di RL offline robotico che si addestrano su dati robotici diversificati, ottenendo funzioni di valore e politiche per compiti di manipolazione che performano meglio, agiscono in modo robusto e generalizzano ampiamente. Su diversi compiti di manipolazione su un robot WidowX reale, il nostro framework produce politiche che migliorano significativamente rispetto ai metodi precedenti. Il nostro video e ulteriori dettagli sono disponibili all'indirizzo https://dibyaghosh.com/vptr/.
English
Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/