Q-Transformer: Apprendimento per Rinforzo Offline Scalabile tramite Funzioni Q Autoregressive
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
September 18, 2023
Autori: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI
Abstract
In questo lavoro, presentiamo un metodo di apprendimento per rinforzo scalabile per l'addestramento di politiche multi-task a partire da grandi dataset offline che possono sfruttare sia dimostrazioni umane che dati raccolti in modo autonomo. Il nostro metodo utilizza un Transformer per fornire una rappresentazione scalabile delle funzioni Q addestrate tramite backup di differenze temporali offline. Pertanto, ci riferiamo al metodo come Q-Transformer. Discretizzando ogni dimensione dell'azione e rappresentando il valore Q di ciascuna dimensione dell'azione come token separati, possiamo applicare tecniche efficaci di modellazione sequenziale ad alta capacità per il Q-learning. Presentiamo diverse decisioni progettuali che consentono buone prestazioni con l'addestramento RL offline e dimostriamo che Q-Transformer supera gli algoritmi RL offline precedenti e le tecniche di apprendimento per imitazione su un'ampia suite di task di manipolazione robotica nel mondo reale. Il sito web del progetto e i video sono disponibili all'indirizzo https://q-transformer.github.io.
English
In this work, we present a scalable reinforcement learning method for
training multi-task policies from large offline datasets that can leverage both
human demonstrations and autonomously collected data. Our method uses a
Transformer to provide a scalable representation for Q-functions trained via
offline temporal difference backups. We therefore refer to the method as
Q-Transformer. By discretizing each action dimension and representing the
Q-value of each action dimension as separate tokens, we can apply effective
high-capacity sequence modeling techniques for Q-learning. We present several
design decisions that enable good performance with offline RL training, and
show that Q-Transformer outperforms prior offline RL algorithms and imitation
learning techniques on a large diverse real-world robotic manipulation task
suite. The project's website and videos can be found at
https://q-transformer.github.io