ChatPaper.aiChatPaper

Sfruttare la Potenza dei Modelli Linguistici Pre-addestrati per il Reinforcement Learning Offline

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

October 31, 2023
Autori: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI

Abstract

L'apprendimento per rinforzo offline (offline RL) mira a trovare una politica quasi ottimale utilizzando dataset pre-raccolti. Negli scenari del mondo reale, la raccolta dei dati potrebbe essere costosa e rischiosa; pertanto, l'offline RL diventa particolarmente impegnativo quando i dati nel dominio specifico sono limitati. Alla luce dei recenti progressi nei Modelli Linguistici di Grande Scala (LLMs) e della loro capacità di apprendimento few-shot, questo articolo introduce Language Models for Motion Control (LaMo), un framework generale basato su Decision Transformers per utilizzare efficacemente Modelli Linguistici (LMs) pre-addestrati nell'offline RL. Il nostro framework mette in evidenza quattro componenti cruciali: (1) Inizializzazione dei Decision Transformers con LMs pre-addestrati sequenzialmente, (2) impiego del metodo di fine-tuning LoRA, in contrasto con il fine-tuning completo dei pesi, per combinare efficacemente la conoscenza pre-addestrata dei LMs e la conoscenza nel dominio specifico, (3) utilizzo della trasformazione non-lineare MLP invece di proiezioni lineari, per generare embedding, e (4) integrazione di una perdita ausiliaria di previsione linguistica durante il fine-tuning per stabilizzare i LMs e mantenere le loro capacità originali sui linguaggi. I risultati empirici indicano che LaMo raggiunge prestazioni all'avanguardia in compiti con ricompense sparse e riduce il divario tra i metodi di offline RL basati sul valore e i decision transformers nei compiti con ricompense dense. In particolare, il nostro metodo dimostra prestazioni superiori negli scenari con un numero limitato di campioni di dati. Il sito web del nostro progetto è https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces Language Models for Motion Control (LaMo), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate LaMo achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is https://lamo2023.github.io
PDF181February 7, 2026