Q-Transformer: Skalierbares Offline-Reinforcement-Learning durch autoregressive Q-Funktionen
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
September 18, 2023
Autoren: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI
Zusammenfassung
In dieser Arbeit präsentieren wir eine skalierbare Methode des Reinforcement Learning für das Training von Multi-Task-Policies aus großen Offline-Datensätzen, die sowohl menschliche Demonstrationen als auch autonom gesammelte Daten nutzen kann. Unsere Methode verwendet einen Transformer, um eine skalierbare Repräsentation für Q-Funktionen bereitzustellen, die durch Offline-Temporal-Difference-Backups trainiert werden. Daher bezeichnen wir die Methode als Q-Transformer. Durch die Diskretisierung jeder Aktionsdimension und die Darstellung des Q-Werts jeder Aktionsdimension als separate Tokens können wir effektive Hochkapazitäts-Sequenzmodellierungstechniken für Q-Learning anwenden. Wir präsentieren mehrere Designentscheidungen, die eine gute Leistung beim Offline-RL-Training ermöglichen, und zeigen, dass Q-Transformer bisherige Offline-RL-Algorithmen und Imitation-Learning-Techniken auf einer großen, vielfältigen Suite von realen Roboter-Manipulationsaufgaben übertrifft. Die Projektwebsite und Videos sind unter https://q-transformer.github.io zu finden.
English
In this work, we present a scalable reinforcement learning method for
training multi-task policies from large offline datasets that can leverage both
human demonstrations and autonomously collected data. Our method uses a
Transformer to provide a scalable representation for Q-functions trained via
offline temporal difference backups. We therefore refer to the method as
Q-Transformer. By discretizing each action dimension and representing the
Q-value of each action dimension as separate tokens, we can apply effective
high-capacity sequence modeling techniques for Q-learning. We present several
design decisions that enable good performance with offline RL training, and
show that Q-Transformer outperforms prior offline RL algorithms and imitation
learning techniques on a large diverse real-world robotic manipulation task
suite. The project's website and videos can be found at
https://q-transformer.github.io