Q-Transformer: Schaalbaar Offline Reinforcement Learning via Autoregressieve Q-Functies

Samenvatting

In dit werk presenteren we een schaalbare methode voor reinforcement learning om multi-task beleidsregels te trainen met behulp van grote offline datasets die zowel menselijke demonstraties als autonoom verzamelde gegevens kunnen benutten. Onze methode maakt gebruik van een Transformer om een schaalbare representatie te bieden voor Q-functies die worden getraind via offline temporele differentie-backups. Daarom noemen we de methode Q-Transformer. Door elke actiedimensie te discretiseren en de Q-waarde van elke actiedimensie als afzonderlijke tokens te representeren, kunnen we effectieve technieken voor sequentiemodellering met hoge capaciteit toepassen voor Q-learning. We presenteren verschillende ontwerpbeslissingen die een goede prestaties mogelijk maken bij offline RL-training, en laten zien dat Q-Transformer eerdere offline RL-algoritmen en imitatietechnieken overtreft op een grote en diverse suite van real-world robotmanipulatietaken. De website en video's van het project zijn te vinden op https://q-transformer.github.io.

English

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io

Q-Transformer: Schaalbaar Offline Reinforcement Learning via Autoregressieve Q-Functies

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Samenvatting

Support