Libérer le potentiel des modèles de langage pré-entraînés pour l'apprentissage par renforcement hors ligne
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning
October 31, 2023
Auteurs: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI
Résumé
L'apprentissage par renforcement hors ligne (Offline RL) vise à trouver une politique quasi-optimale en utilisant des ensembles de données pré-collectionnés. Dans des scénarios réels, la collecte de données peut être coûteuse et risquée ; par conséquent, l'apprentissage par renforcement hors ligne devient particulièrement difficile lorsque les données dans le domaine sont limitées. Compte tenu des avancées récentes dans les modèles de langage de grande taille (LLMs) et de leur capacité d'apprentissage en few-shot, cet article présente Language Models for Motion Control (LaMo), un cadre général basé sur les Decision Transformers pour utiliser efficacement des modèles de langage pré-entraînés (LMs) dans l'apprentissage par renforcement hors ligne. Notre cadre met en évidence quatre composants cruciaux : (1) l'initialisation des Decision Transformers avec des LMs pré-entraînés de manière séquentielle, (2) l'utilisation de la méthode de fine-tuning LoRA, par opposition au fine-tuning complet des poids, pour combiner efficacement les connaissances pré-entraînées des LMs et les connaissances spécifiques au domaine, (3) l'utilisation de la transformation non linéaire MLP au lieu de projections linéaires pour générer des embeddings, et (4) l'intégration d'une perte de prédiction linguistique auxiliaire pendant le fine-tuning pour stabiliser les LMs et préserver leurs capacités originales sur les langues. Les résultats empiriques indiquent que LaMo atteint des performances de pointe dans les tâches à récompense éparse et réduit l'écart entre les méthodes d'apprentissage par renforcement hors ligne basées sur la valeur et les Decision Transformers dans les tâches à récompense dense. En particulier, notre méthode démontre des performances supérieures dans des scénarios avec un nombre limité d'échantillons de données. Notre site web de projet est https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using
pre-collected datasets. In real-world scenarios, data collection could be
costly and risky; therefore, offline RL becomes particularly challenging when
the in-domain data is limited. Given recent advances in Large Language Models
(LLMs) and their few-shot learning prowess, this paper introduces
Language Models for Motion Control (LaMo), a
general framework based on Decision Transformers to effectively use pre-trained
Language Models (LMs) for offline RL. Our framework highlights four crucial
components: (1) Initializing Decision Transformers with sequentially
pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to
full-weight fine-tuning, to combine the pre-trained knowledge from LMs and
in-domain knowledge effectively, (3) using the non-linear MLP transformation
instead of linear projections, to generate embeddings, and (4) integrating an
auxiliary language prediction loss during fine-tuning to stabilize the LMs and
retain their original abilities on languages. Empirical results indicate
LaMo achieves state-of-the-art performance in sparse-reward tasks
and closes the gap between value-based offline RL methods and decision
transformers in dense-reward tasks. In particular, our method demonstrates
superior performance in scenarios with limited data samples. Our project
website is https://lamo2023.github.io