Q-Transformer: Schaalbaar Offline Reinforcement Learning via Autoregressieve Q-Functies
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
September 18, 2023
Auteurs: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI
Samenvatting
In dit werk presenteren we een schaalbare methode voor reinforcement learning om multi-task beleidsregels te trainen met behulp van grote offline datasets die zowel menselijke demonstraties als autonoom verzamelde gegevens kunnen benutten. Onze methode maakt gebruik van een Transformer om een schaalbare representatie te bieden voor Q-functies die worden getraind via offline temporele differentie-backups. Daarom noemen we de methode Q-Transformer. Door elke actiedimensie te discretiseren en de Q-waarde van elke actiedimensie als afzonderlijke tokens te representeren, kunnen we effectieve technieken voor sequentiemodellering met hoge capaciteit toepassen voor Q-learning. We presenteren verschillende ontwerpbeslissingen die een goede prestaties mogelijk maken bij offline RL-training, en laten zien dat Q-Transformer eerdere offline RL-algoritmen en imitatietechnieken overtreft op een grote en diverse suite van real-world robotmanipulatietaken. De website en video's van het project zijn te vinden op https://q-transformer.github.io.
English
In this work, we present a scalable reinforcement learning method for
training multi-task policies from large offline datasets that can leverage both
human demonstrations and autonomously collected data. Our method uses a
Transformer to provide a scalable representation for Q-functions trained via
offline temporal difference backups. We therefore refer to the method as
Q-Transformer. By discretizing each action dimension and representing the
Q-value of each action dimension as separate tokens, we can apply effective
high-capacity sequence modeling techniques for Q-learning. We present several
design decisions that enable good performance with offline RL training, and
show that Q-Transformer outperforms prior offline RL algorithms and imitation
learning techniques on a large diverse real-world robotic manipulation task
suite. The project's website and videos can be found at
https://q-transformer.github.io