Q-Transformer: Aprendizaje por Refuerzo Escalable sin Conexión mediante Funciones Q Autoregresivas

Resumen

En este trabajo, presentamos un método escalable de aprendizaje por refuerzo para entrenar políticas multitarea a partir de grandes conjuntos de datos offline que pueden aprovechar tanto demostraciones humanas como datos recopilados de manera autónoma. Nuestro método utiliza un Transformer para proporcionar una representación escalable de las funciones Q entrenadas mediante respaldos de diferencias temporales offline. Por lo tanto, nos referimos al método como Q-Transformer. Al discretizar cada dimensión de la acción y representar el valor Q de cada dimensión de la acción como tokens separados, podemos aplicar técnicas efectivas de modelado de secuencias de alta capacidad para el aprendizaje Q. Presentamos varias decisiones de diseño que permiten un buen rendimiento con el entrenamiento de RL offline, y demostramos que Q-Transformer supera a los algoritmos previos de RL offline y a las técnicas de aprendizaje por imitación en un conjunto diverso y extenso de tareas de manipulación robótica del mundo real. El sitio web del proyecto y los videos se pueden encontrar en https://q-transformer.github.io.

English

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io

Q-Transformer: Aprendizaje por Refuerzo Escalable sin Conexión mediante Funciones Q Autoregresivas

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Resumen

Support