Sfruttare la Potenza dei Modelli Linguistici Pre-addestrati per il Reinforcement Learning Offline
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning
October 31, 2023
Autori: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI
Abstract
L'apprendimento per rinforzo offline (offline RL) mira a trovare una politica quasi ottimale utilizzando dataset pre-raccolti. Negli scenari del mondo reale, la raccolta dei dati potrebbe essere costosa e rischiosa; pertanto, l'offline RL diventa particolarmente impegnativo quando i dati nel dominio specifico sono limitati. Alla luce dei recenti progressi nei Modelli Linguistici di Grande Scala (LLMs) e della loro capacità di apprendimento few-shot, questo articolo introduce Language Models for Motion Control (LaMo), un framework generale basato su Decision Transformers per utilizzare efficacemente Modelli Linguistici (LMs) pre-addestrati nell'offline RL. Il nostro framework mette in evidenza quattro componenti cruciali: (1) Inizializzazione dei Decision Transformers con LMs pre-addestrati sequenzialmente, (2) impiego del metodo di fine-tuning LoRA, in contrasto con il fine-tuning completo dei pesi, per combinare efficacemente la conoscenza pre-addestrata dei LMs e la conoscenza nel dominio specifico, (3) utilizzo della trasformazione non-lineare MLP invece di proiezioni lineari, per generare embedding, e (4) integrazione di una perdita ausiliaria di previsione linguistica durante il fine-tuning per stabilizzare i LMs e mantenere le loro capacità originali sui linguaggi. I risultati empirici indicano che LaMo raggiunge prestazioni all'avanguardia in compiti con ricompense sparse e riduce il divario tra i metodi di offline RL basati sul valore e i decision transformers nei compiti con ricompense dense. In particolare, il nostro metodo dimostra prestazioni superiori negli scenari con un numero limitato di campioni di dati. Il sito web del nostro progetto è https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using
pre-collected datasets. In real-world scenarios, data collection could be
costly and risky; therefore, offline RL becomes particularly challenging when
the in-domain data is limited. Given recent advances in Large Language Models
(LLMs) and their few-shot learning prowess, this paper introduces
Language Models for Motion Control (LaMo), a
general framework based on Decision Transformers to effectively use pre-trained
Language Models (LMs) for offline RL. Our framework highlights four crucial
components: (1) Initializing Decision Transformers with sequentially
pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to
full-weight fine-tuning, to combine the pre-trained knowledge from LMs and
in-domain knowledge effectively, (3) using the non-linear MLP transformation
instead of linear projections, to generate embeddings, and (4) integrating an
auxiliary language prediction loss during fine-tuning to stabilize the LMs and
retain their original abilities on languages. Empirical results indicate
LaMo achieves state-of-the-art performance in sparse-reward tasks
and closes the gap between value-based offline RL methods and decision
transformers in dense-reward tasks. In particular, our method demonstrates
superior performance in scenarios with limited data samples. Our project
website is https://lamo2023.github.io