ChatPaper.aiChatPaper

사전 학습된 언어 모델의 잠재력을 오프라인 강화 학습에 활용하기

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

October 31, 2023
저자: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI

초록

오프라인 강화 학습(RL)은 사전 수집된 데이터셋을 사용하여 최적에 가까운 정책을 찾는 것을 목표로 합니다. 실제 세계 시나리오에서는 데이터 수집이 비용이 많이 들고 위험할 수 있기 때문에, 도메인 내 데이터가 제한적일 때 오프라인 RL은 특히 어려운 과제가 됩니다. 최근 대규모 언어 모델(LLM)의 발전과 소수 샷 학습 능력을 고려하여, 본 논문은 사전 학습된 언어 모델(LM)을 오프라인 RL에 효과적으로 활용하기 위해 Decision Transformers를 기반으로 한 일반 프레임워크인 Language Models for Motion Control(LaMo)을 소개합니다. 우리의 프레임워크는 네 가지 중요한 구성 요소를 강조합니다: (1) 순차적으로 사전 학습된 LM으로 Decision Transformers를 초기화, (2) 전체 가중치 미세 조정과 대조적으로 LoRA 미세 조정 방법을 사용하여 LM의 사전 학습된 지식과 도메인 내 지식을 효과적으로 결합, (3) 선형 투영 대신 비선형 MLP 변환을 사용하여 임베딩 생성, (4) 미세 조정 중 보조 언어 예측 손실을 통합하여 LM을 안정화하고 언어에 대한 원래 능력을 유지. 실험 결과는 LaMo가 희소 보상 작업에서 최첨단 성능을 달성하고, 밀집 보상 작업에서 가치 기반 오프라인 RL 방법과 Decision Transformers 간의 격차를 줄이는 것을 보여줍니다. 특히, 우리의 방법은 데이터 샘플이 제한된 시나리오에서 우수한 성능을 보입니다. 우리의 프로젝트 웹사이트는 https://lamo2023.github.io입니다.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces Language Models for Motion Control (LaMo), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate LaMo achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is https://lamo2023.github.io
PDF181December 15, 2024