Q-Transformer: Apprendimento per Rinforzo Offline Scalabile tramite Funzioni Q Autoregressive

Abstract

In questo lavoro, presentiamo un metodo di apprendimento per rinforzo scalabile per l'addestramento di politiche multi-task a partire da grandi dataset offline che possono sfruttare sia dimostrazioni umane che dati raccolti in modo autonomo. Il nostro metodo utilizza un Transformer per fornire una rappresentazione scalabile delle funzioni Q addestrate tramite backup di differenze temporali offline. Pertanto, ci riferiamo al metodo come Q-Transformer. Discretizzando ogni dimensione dell'azione e rappresentando il valore Q di ciascuna dimensione dell'azione come token separati, possiamo applicare tecniche efficaci di modellazione sequenziale ad alta capacità per il Q-learning. Presentiamo diverse decisioni progettuali che consentono buone prestazioni con l'addestramento RL offline e dimostriamo che Q-Transformer supera gli algoritmi RL offline precedenti e le tecniche di apprendimento per imitazione su un'ampia suite di task di manipolazione robotica nel mondo reale. Il sito web del progetto e i video sono disponibili all'indirizzo https://q-transformer.github.io.

English

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io

Q-Transformer: Apprendimento per Rinforzo Offline Scalabile tramite Funzioni Q Autoregressive

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Abstract

Support