ChatPaper.aiChatPaper

Q-Transformer : Apprentissage par renforcement hors ligne évolutif via fonctions Q autorégressives

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

September 18, 2023
Auteurs: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI

Résumé

Dans ce travail, nous présentons une méthode d'apprentissage par renforcement scalable pour l'entraînement de politiques multi-tâches à partir de grands ensembles de données hors ligne, capables d'exploiter à la fois des démonstrations humaines et des données collectées de manière autonome. Notre méthode utilise un Transformer pour fournir une représentation scalable des fonctions Q entraînées via des sauvegardes de différences temporelles hors ligne. Nous appelons donc cette méthode Q-Transformer. En discrétisant chaque dimension d'action et en représentant la valeur Q de chaque dimension d'action sous forme de tokens séparés, nous pouvons appliquer des techniques de modélisation de séquences à haute capacité pour le Q-learning. Nous présentons plusieurs décisions de conception qui permettent d'obtenir de bonnes performances avec l'entraînement RL hors ligne, et montrons que Q-Transformer surpasse les algorithmes RL hors ligne précédents et les techniques d'apprentissage par imitation sur une suite diversifiée de tâches de manipulation robotique en conditions réelles. Le site web du projet et les vidéos sont disponibles à l'adresse suivante : https://q-transformer.github.io
English
In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io
PDF251December 15, 2024