Die Entfesselung der Leistungsfähigkeit vortrainierter Sprachmodelle für Offline-Reinforcement-Learning
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning
October 31, 2023
Autoren: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI
Zusammenfassung
Offline Reinforcement Learning (RL) zielt darauf ab, eine nahezu optimale Policy mithilfe von vorab gesammelten Datensätzen zu finden. In realen Szenarien kann die Datensammlung kostspielig und riskant sein; daher wird Offline RL besonders herausfordernd, wenn die domänenspezifischen Daten begrenzt sind. Angesichts der jüngsten Fortschritte bei Large Language Models (LLMs) und ihrer Fähigkeit zum Few-Shot-Lernen stellt dieser Artikel Language Models for Motion Control (LaMo) vor, ein allgemeines Framework basierend auf Decision Transformers, das vortrainierte Language Models (LMs) effektiv für Offline RL nutzt. Unser Framework hebt vier entscheidende Komponenten hervor: (1) Die Initialisierung von Decision Transformers mit sequentiell vortrainierten LMs, (2) die Anwendung der LoRA-Fine-Tuning-Methode, im Gegensatz zum Full-Weight-Fine-Tuning, um das vortrainierte Wissen der LMs und das domänenspezifische Wissen effektiv zu kombinieren, (3) die Verwendung der nichtlinearen MLP-Transformation anstelle von linearen Projektionen, um Embeddings zu erzeugen, und (4) die Integration eines zusätzlichen Sprachvorhersageverlusts während des Fine-Tunings, um die LMs zu stabilisieren und ihre ursprünglichen Fähigkeiten in Bezug auf Sprache zu bewahren. Empirische Ergebnisse zeigen, dass LaMo in Aufgaben mit spärlichen Belohnungen state-of-the-art Leistung erzielt und die Lücke zwischen wertbasierten Offline-RL-Methoden und Decision Transformers in Aufgaben mit dichten Belohnungen schließt. Insbesondere demonstriert unsere Methode überlegene Leistung in Szenarien mit begrenzten Datenproben. Unsere Projektwebsite ist https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using
pre-collected datasets. In real-world scenarios, data collection could be
costly and risky; therefore, offline RL becomes particularly challenging when
the in-domain data is limited. Given recent advances in Large Language Models
(LLMs) and their few-shot learning prowess, this paper introduces
Language Models for Motion Control (LaMo), a
general framework based on Decision Transformers to effectively use pre-trained
Language Models (LMs) for offline RL. Our framework highlights four crucial
components: (1) Initializing Decision Transformers with sequentially
pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to
full-weight fine-tuning, to combine the pre-trained knowledge from LMs and
in-domain knowledge effectively, (3) using the non-linear MLP transformation
instead of linear projections, to generate embeddings, and (4) integrating an
auxiliary language prediction loss during fine-tuning to stabilize the LMs and
retain their original abilities on languages. Empirical results indicate
LaMo achieves state-of-the-art performance in sparse-reward tasks
and closes the gap between value-based offline RL methods and decision
transformers in dense-reward tasks. In particular, our method demonstrates
superior performance in scenarios with limited data samples. Our project
website is https://lamo2023.github.io