ChatPaper.aiChatPaper

Q-Transformer: 자기회귀 Q-함수를 통한 확장 가능한 오프라인 강화 학습

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

September 18, 2023
저자: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
cs.AI

초록

본 연구에서는 인간의 시연 데이터와 자율적으로 수집된 데이터를 모두 활용할 수 있는 대규모 오프라인 데이터셋으로부터 다중 작업 정책을 학습하기 위한 확장 가능한 강화 학습 방법을 제안합니다. 우리의 방법은 Transformer를 사용하여 오프라인 시간 차이 백업(temporal difference backups)을 통해 학습된 Q-함수에 대한 확장 가능한 표현을 제공합니다. 따라서 이 방법을 Q-Transformer라고 부릅니다. 각 행동 차원을 이산화하고 각 행동 차원의 Q-값을 별도의 토큰으로 표현함으로써, Q-학습에 효과적인 고용량 시퀀스 모델링 기법을 적용할 수 있습니다. 우리는 오프라인 강화 학습 훈련에서 우수한 성능을 가능하게 하는 여러 설계 결정을 제시하고, Q-Transformer가 대규모 다양한 실제 로봇 조작 작업 세트에서 기존의 오프라인 강화 학습 알고리즘과 모방 학습 기법을 능가함을 보여줍니다. 프로젝트 웹사이트와 동영상은 https://q-transformer.github.io에서 확인할 수 있습니다.
English
In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io
PDF251December 15, 2024