Q-Transformer: Skalierbares Offline-Reinforcement-Learning durch autoregressive Q-Funktionen

papers.abstract

In dieser Arbeit präsentieren wir eine skalierbare Methode des Reinforcement Learning für das Training von Multi-Task-Policies aus großen Offline-Datensätzen, die sowohl menschliche Demonstrationen als auch autonom gesammelte Daten nutzen kann. Unsere Methode verwendet einen Transformer, um eine skalierbare Repräsentation für Q-Funktionen bereitzustellen, die durch Offline-Temporal-Difference-Backups trainiert werden. Daher bezeichnen wir die Methode als Q-Transformer. Durch die Diskretisierung jeder Aktionsdimension und die Darstellung des Q-Werts jeder Aktionsdimension als separate Tokens können wir effektive Hochkapazitäts-Sequenzmodellierungstechniken für Q-Learning anwenden. Wir präsentieren mehrere Designentscheidungen, die eine gute Leistung beim Offline-RL-Training ermöglichen, und zeigen, dass Q-Transformer bisherige Offline-RL-Algorithmen und Imitation-Learning-Techniken auf einer großen, vielfältigen Suite von realen Roboter-Manipulationsaufgaben übertrifft. Die Projektwebsite und Videos sind unter https://q-transformer.github.io zu finden.

English

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io

Q-Transformer: Skalierbares Offline-Reinforcement-Learning durch autoregressive Q-Funktionen

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

papers.abstract

Support