ChatPaper.aiChatPaper

Q-Transformer: Aprendizaje por Refuerzo Escalable sin Conexión mediante Funciones Q Autoregresivas

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

September 18, 2023
Autores: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI

Resumen

En este trabajo, presentamos un método escalable de aprendizaje por refuerzo para entrenar políticas multitarea a partir de grandes conjuntos de datos offline que pueden aprovechar tanto demostraciones humanas como datos recopilados de manera autónoma. Nuestro método utiliza un Transformer para proporcionar una representación escalable de las funciones Q entrenadas mediante respaldos de diferencias temporales offline. Por lo tanto, nos referimos al método como Q-Transformer. Al discretizar cada dimensión de la acción y representar el valor Q de cada dimensión de la acción como tokens separados, podemos aplicar técnicas efectivas de modelado de secuencias de alta capacidad para el aprendizaje Q. Presentamos varias decisiones de diseño que permiten un buen rendimiento con el entrenamiento de RL offline, y demostramos que Q-Transformer supera a los algoritmos previos de RL offline y a las técnicas de aprendizaje por imitación en un conjunto diverso y extenso de tareas de manipulación robótica del mundo real. El sitio web del proyecto y los videos se pueden encontrar en https://q-transformer.github.io.
English
In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io
PDF251December 15, 2024