Q-Transformer: Масштабируемое обучение с подкреплением в автономном режиме с использованием авторегрессивных Q-функций

Аннотация

В данной работе мы представляем масштабируемый метод обучения с подкреплением для тренировки политик, способных решать множество задач, на основе больших оффлайн-датасетов, которые могут включать как демонстрации, выполненные человеком, так и данные, собранные автономно. Наш метод использует Transformer для создания масштабируемого представления Q-функций, обученных с помощью оффлайн-временных разностных обновлений. Поэтому мы называем этот метод Q-Transformer. Дискретизируя каждое измерение действия и представляя Q-значение каждого измерения действия в виде отдельных токенов, мы можем применять эффективные методы моделирования последовательностей с высокой емкостью для Q-обучения. Мы описываем несколько ключевых решений, которые обеспечивают высокую производительность при оффлайн-обучении с подкреплением, и показываем, что Q-Transformer превосходит предыдущие алгоритмы оффлайн-обучения с подкреплением и методы обучения с подражанием на большом и разнообразном наборе задач манипуляции с реальными роботами. Сайт проекта и видеоматериалы доступны по адресу https://q-transformer.github.io.

English

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io

Q-Transformer: Масштабируемое обучение с подкреплением в автономном режиме с использованием авторегрессивных Q-функций

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Аннотация

Support