Q-Transformer: Масштабируемое обучение с подкреплением в автономном режиме с использованием авторегрессивных Q-функций
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
September 18, 2023
Авторы: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI
Аннотация
В данной работе мы представляем масштабируемый метод обучения с подкреплением для тренировки политик, способных решать множество задач, на основе больших оффлайн-датасетов, которые могут включать как демонстрации, выполненные человеком, так и данные, собранные автономно. Наш метод использует Transformer для создания масштабируемого представления Q-функций, обученных с помощью оффлайн-временных разностных обновлений. Поэтому мы называем этот метод Q-Transformer. Дискретизируя каждое измерение действия и представляя Q-значение каждого измерения действия в виде отдельных токенов, мы можем применять эффективные методы моделирования последовательностей с высокой емкостью для Q-обучения. Мы описываем несколько ключевых решений, которые обеспечивают высокую производительность при оффлайн-обучении с подкреплением, и показываем, что Q-Transformer превосходит предыдущие алгоритмы оффлайн-обучения с подкреплением и методы обучения с подражанием на большом и разнообразном наборе задач манипуляции с реальными роботами. Сайт проекта и видеоматериалы доступны по адресу https://q-transformer.github.io.
English
In this work, we present a scalable reinforcement learning method for
training multi-task policies from large offline datasets that can leverage both
human demonstrations and autonomously collected data. Our method uses a
Transformer to provide a scalable representation for Q-functions trained via
offline temporal difference backups. We therefore refer to the method as
Q-Transformer. By discretizing each action dimension and representing the
Q-value of each action dimension as separate tokens, we can apply effective
high-capacity sequence modeling techniques for Q-learning. We present several
design decisions that enable good performance with offline RL training, and
show that Q-Transformer outperforms prior offline RL algorithms and imitation
learning techniques on a large diverse real-world robotic manipulation task
suite. The project's website and videos can be found at
https://q-transformer.github.io