Q-Transformer: Aprendizado por Reforço Offline Escalável via Funções-Q Autoregressivas
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
September 18, 2023
Autores: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI
Resumo
Neste trabalho, apresentamos um método escalável de aprendizado por reforço para treinar políticas multitarefa a partir de grandes conjuntos de dados offline que podem aproveitar tanto demonstrações humanas quanto dados coletados de forma autônoma. Nosso método utiliza um Transformer para fornecer uma representação escalável para funções Q treinadas por meio de backups de diferença temporal offline. Portanto, nos referimos ao método como Q-Transformer. Ao discretizar cada dimensão da ação e representar o valor Q de cada dimensão da ação como tokens separados, podemos aplicar técnicas eficazes de modelagem de sequência de alta capacidade para o aprendizado Q. Apresentamos várias decisões de projeto que permitem um bom desempenho com o treinamento de RL offline e mostramos que o Q-Transformer supera algoritmos anteriores de RL offline e técnicas de aprendizado por imitação em um conjunto diversificado e extenso de tarefas de manipulação robótica do mundo real. O site do projeto e os vídeos podem ser encontrados em https://q-transformer.github.io.
English
In this work, we present a scalable reinforcement learning method for
training multi-task policies from large offline datasets that can leverage both
human demonstrations and autonomously collected data. Our method uses a
Transformer to provide a scalable representation for Q-functions trained via
offline temporal difference backups. We therefore refer to the method as
Q-Transformer. By discretizing each action dimension and representing the
Q-value of each action dimension as separate tokens, we can apply effective
high-capacity sequence modeling techniques for Q-learning. We present several
design decisions that enable good performance with offline RL training, and
show that Q-Transformer outperforms prior offline RL algorithms and imitation
learning techniques on a large diverse real-world robotic manipulation task
suite. The project's website and videos can be found at
https://q-transformer.github.io