Liberando o Potencial de Modelos de Linguagem Pré-treinados para Aprendizado por Reforço Offline
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning
October 31, 2023
Autores: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI
Resumo
O aprendizado por reforço offline (RL, do inglês Reinforcement Learning) visa encontrar uma política quase ótima utilizando conjuntos de dados pré-coletados. Em cenários do mundo real, a coleta de dados pode ser custosa e arriscada; portanto, o RL offline se torna particularmente desafiador quando os dados do domínio são limitados. Dados os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) e sua capacidade de aprendizado com poucos exemplos, este artigo introduz o LaMo (Language Models for Motion Control), um framework geral baseado em Transformadores de Decisão para utilizar efetivamente Modelos de Linguagem (LMs, do inglês Language Models) pré-treinados em RL offline. Nosso framework destaca quatro componentes cruciais: (1) Inicialização de Transformadores de Decisão com LMs pré-treinados sequencialmente, (2) emprego do método de ajuste fino LoRA, em contraste com o ajuste fino de todos os pesos, para combinar efetivamente o conhecimento pré-treinado dos LMs e o conhecimento do domínio, (3) uso da transformação não linear MLP em vez de projeções lineares para gerar embeddings, e (4) integração de uma perda auxiliar de previsão de linguagem durante o ajuste fino para estabilizar os LMs e preservar suas habilidades originais em linguagem. Resultados empíricos indicam que o LaMo alcança desempenho de ponta em tarefas de recompensa esparsa e reduz a lacuna entre métodos de RL offline baseados em valor e transformadores de decisão em tarefas de recompensa densa. Em particular, nosso método demonstra desempenho superior em cenários com amostras de dados limitadas. O site do nosso projeto está disponível em https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using
pre-collected datasets. In real-world scenarios, data collection could be
costly and risky; therefore, offline RL becomes particularly challenging when
the in-domain data is limited. Given recent advances in Large Language Models
(LLMs) and their few-shot learning prowess, this paper introduces
Language Models for Motion Control (LaMo), a
general framework based on Decision Transformers to effectively use pre-trained
Language Models (LMs) for offline RL. Our framework highlights four crucial
components: (1) Initializing Decision Transformers with sequentially
pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to
full-weight fine-tuning, to combine the pre-trained knowledge from LMs and
in-domain knowledge effectively, (3) using the non-linear MLP transformation
instead of linear projections, to generate embeddings, and (4) integrating an
auxiliary language prediction loss during fine-tuning to stabilize the LMs and
retain their original abilities on languages. Empirical results indicate
LaMo achieves state-of-the-art performance in sparse-reward tasks
and closes the gap between value-based offline RL methods and decision
transformers in dense-reward tasks. In particular, our method demonstrates
superior performance in scenarios with limited data samples. Our project
website is https://lamo2023.github.io