Het Benutten van de Kracht van Vooraf Getrainde Taalmodellen voor Offline Reinforcement Learning
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning
October 31, 2023
Auteurs: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI
Samenvatting
Offline reinforcement learning (RL) heeft als doel een bijna-optimale policy te vinden met behulp van vooraf verzamelde datasets. In realistische scenario's kan het verzamelen van data kostbaar en risicovol zijn; daarom wordt offline RL bijzonder uitdagend wanneer de domeinspecifieke data beperkt is. Gezien recente vooruitgang in Large Language Models (LLMs) en hun vermogen tot few-shot learning, introduceert dit artikel Language Models for Motion Control (LaMo), een algemeen framework gebaseerd op Decision Transformers om vooraf getrainde Language Models (LMs) effectief te gebruiken voor offline RL. Ons framework benadrukt vier cruciale componenten: (1) Initialisatie van Decision Transformers met sequentieel vooraf getrainde LMs, (2) het gebruik van de LoRA fine-tuning methode, in tegenstelling tot volledige gewichtsaanpassing, om de vooraf getrainde kennis van LMs en domeinspecifieke kennis effectief te combineren, (3) het gebruik van niet-lineaire MLP-transformatie in plaats van lineaire projecties om embeddings te genereren, en (4) de integratie van een aanvullende taalvoorspellingsverliesfunctie tijdens fine-tuning om de LMs te stabiliseren en hun oorspronkelijke vermogens op taalgebied te behouden. Empirische resultaten tonen aan dat LaMo state-of-the-art prestaties bereikt in taken met schaarse beloningen en de kloof tussen waardegestuurde offline RL-methoden en decision transformers verkleint in taken met dichte beloningen. In het bijzonder demonstreert onze methode superieure prestaties in scenario's met beperkte data-aantallen. Onze projectwebsite is https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using
pre-collected datasets. In real-world scenarios, data collection could be
costly and risky; therefore, offline RL becomes particularly challenging when
the in-domain data is limited. Given recent advances in Large Language Models
(LLMs) and their few-shot learning prowess, this paper introduces
Language Models for Motion Control (LaMo), a
general framework based on Decision Transformers to effectively use pre-trained
Language Models (LMs) for offline RL. Our framework highlights four crucial
components: (1) Initializing Decision Transformers with sequentially
pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to
full-weight fine-tuning, to combine the pre-trained knowledge from LMs and
in-domain knowledge effectively, (3) using the non-linear MLP transformation
instead of linear projections, to generate embeddings, and (4) integrating an
auxiliary language prediction loss during fine-tuning to stabilize the LMs and
retain their original abilities on languages. Empirical results indicate
LaMo achieves state-of-the-art performance in sparse-reward tasks
and closes the gap between value-based offline RL methods and decision
transformers in dense-reward tasks. In particular, our method demonstrates
superior performance in scenarios with limited data samples. Our project
website is https://lamo2023.github.io