Q-Transformer : Apprentissage par renforcement hors ligne évolutif via fonctions Q autorégressives
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
September 18, 2023
Auteurs: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI
Résumé
Dans ce travail, nous présentons une méthode d'apprentissage par renforcement scalable pour l'entraînement de politiques multi-tâches à partir de grands ensembles de données hors ligne, capables d'exploiter à la fois des démonstrations humaines et des données collectées de manière autonome. Notre méthode utilise un Transformer pour fournir une représentation scalable des fonctions Q entraînées via des sauvegardes de différences temporelles hors ligne. Nous appelons donc cette méthode Q-Transformer. En discrétisant chaque dimension d'action et en représentant la valeur Q de chaque dimension d'action sous forme de tokens séparés, nous pouvons appliquer des techniques de modélisation de séquences à haute capacité pour le Q-learning. Nous présentons plusieurs décisions de conception qui permettent d'obtenir de bonnes performances avec l'entraînement RL hors ligne, et montrons que Q-Transformer surpasse les algorithmes RL hors ligne précédents et les techniques d'apprentissage par imitation sur une suite diversifiée de tâches de manipulation robotique en conditions réelles. Le site web du projet et les vidéos sont disponibles à l'adresse suivante : https://q-transformer.github.io
English
In this work, we present a scalable reinforcement learning method for
training multi-task policies from large offline datasets that can leverage both
human demonstrations and autonomously collected data. Our method uses a
Transformer to provide a scalable representation for Q-functions trained via
offline temporal difference backups. We therefore refer to the method as
Q-Transformer. By discretizing each action dimension and representing the
Q-value of each action dimension as separate tokens, we can apply effective
high-capacity sequence modeling techniques for Q-learning. We present several
design decisions that enable good performance with offline RL training, and
show that Q-Transformer outperforms prior offline RL algorithms and imitation
learning techniques on a large diverse real-world robotic manipulation task
suite. The project's website and videos can be found at
https://q-transformer.github.io