ChatPaper.aiChatPaper

Het Benutten van de Kracht van Vooraf Getrainde Taalmodellen voor Offline Reinforcement Learning

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

October 31, 2023
Auteurs: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI

Samenvatting

Offline reinforcement learning (RL) heeft als doel een bijna-optimale policy te vinden met behulp van vooraf verzamelde datasets. In realistische scenario's kan het verzamelen van data kostbaar en risicovol zijn; daarom wordt offline RL bijzonder uitdagend wanneer de domeinspecifieke data beperkt is. Gezien recente vooruitgang in Large Language Models (LLMs) en hun vermogen tot few-shot learning, introduceert dit artikel Language Models for Motion Control (LaMo), een algemeen framework gebaseerd op Decision Transformers om vooraf getrainde Language Models (LMs) effectief te gebruiken voor offline RL. Ons framework benadrukt vier cruciale componenten: (1) Initialisatie van Decision Transformers met sequentieel vooraf getrainde LMs, (2) het gebruik van de LoRA fine-tuning methode, in tegenstelling tot volledige gewichtsaanpassing, om de vooraf getrainde kennis van LMs en domeinspecifieke kennis effectief te combineren, (3) het gebruik van niet-lineaire MLP-transformatie in plaats van lineaire projecties om embeddings te genereren, en (4) de integratie van een aanvullende taalvoorspellingsverliesfunctie tijdens fine-tuning om de LMs te stabiliseren en hun oorspronkelijke vermogens op taalgebied te behouden. Empirische resultaten tonen aan dat LaMo state-of-the-art prestaties bereikt in taken met schaarse beloningen en de kloof tussen waardegestuurde offline RL-methoden en decision transformers verkleint in taken met dichte beloningen. In het bijzonder demonstreert onze methode superieure prestaties in scenario's met beperkte data-aantallen. Onze projectwebsite is https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces Language Models for Motion Control (LaMo), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate LaMo achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is https://lamo2023.github.io
PDF181February 7, 2026