Robotisches Offline-Reinforcement-Learning aus Internetvideos durch Vorab-Training von Wertfunktionen
Robotic Offline RL from Internet Videos via Value-Function Pre-Training
September 22, 2023
Autoren: Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
cs.AI
Zusammenfassung
Das Vortraining auf Internetdaten hat sich als ein Schlüsselelement für breite Generalisierung in vielen modernen ML-Systemen erwiesen. Was wäre nötig, um solche Fähigkeiten im Bereich des robotischen Reinforcement Learning (RL) zu ermöglichen? Offline-RL-Methoden, die aus Datensätzen von Robotererfahrungen lernen, bieten eine Möglichkeit, vorhandene Daten in den robotischen Lernprozess zu integrieren. Diese Methoden weisen jedoch eine „Typeninkongruenz“ mit Videodaten (wie z. B. Ego4D) auf, den größten verfügbaren Datensätzen für die Robotik, da Videos nur Beobachtungen ohne die für RL-Methoden erforderlichen Aktions- oder Belohnungsannotationen liefern. In diesem Artikel entwickeln wir ein System, das groß angelegte menschliche Videodatensätze für das robotische Offline-RL nutzt, basierend ausschließlich auf dem Lernen von Wertfunktionen durch Temporal-Difference-Learning. Wir zeigen, dass das Lernen von Werten auf Videodatensätzen Repräsentationen erzeugt, die besser für nachgelagerte robotische Offline-RL geeignet sind als andere Ansätze zum Lernen aus Videodaten. Unser System, genannt V-PTR, kombiniert die Vorteile des Vortrainings auf Videodaten mit robotischen Offline-RL-Ansätzen, die auf diversen Roboterdaten trainieren, und führt zu Wertfunktionen und Strategien für Manipulationsaufgaben, die besser abschneiden, robust agieren und breit generalisieren. Bei mehreren Manipulationsaufgaben an einem realen WidowX-Roboter erzeugt unser Framework Strategien, die eine deutliche Verbesserung gegenüber früheren Methoden darstellen. Unser Video und weitere Details finden Sie unter https://dibyaghosh.com/vptr/.
English
Pre-training on Internet data has proven to be a key ingredient for broad
generalization in many modern ML systems. What would it take to enable such
capabilities in robotic reinforcement learning (RL)? Offline RL methods, which
learn from datasets of robot experience, offer one way to leverage prior data
into the robotic learning pipeline. However, these methods have a "type
mismatch" with video data (such as Ego4D), the largest prior datasets available
for robotics, since video offers observation-only experience without the action
or reward annotations needed for RL methods. In this paper, we develop a system
for leveraging large-scale human video datasets in robotic offline RL, based
entirely on learning value functions via temporal-difference learning. We show
that value learning on video datasets learns representations that are more
conducive to downstream robotic offline RL than other approaches for learning
from video data. Our system, called V-PTR, combines the benefits of
pre-training on video data with robotic offline RL approaches that train on
diverse robot data, resulting in value functions and policies for manipulation
tasks that perform better, act robustly, and generalize broadly. On several
manipulation tasks on a real WidowX robot, our framework produces policies that
greatly improve over prior methods. Our video and additional details can be
found at https://dibyaghosh.com/vptr/