ChatPaper.aiChatPaper

Die Entfesselung der Leistungsfähigkeit vortrainierter Sprachmodelle für Offline-Reinforcement-Learning

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

October 31, 2023
Autoren: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI

Zusammenfassung

Offline Reinforcement Learning (RL) zielt darauf ab, eine nahezu optimale Policy mithilfe von vorab gesammelten Datensätzen zu finden. In realen Szenarien kann die Datensammlung kostspielig und riskant sein; daher wird Offline RL besonders herausfordernd, wenn die domänenspezifischen Daten begrenzt sind. Angesichts der jüngsten Fortschritte bei Large Language Models (LLMs) und ihrer Fähigkeit zum Few-Shot-Lernen stellt dieser Artikel Language Models for Motion Control (LaMo) vor, ein allgemeines Framework basierend auf Decision Transformers, das vortrainierte Language Models (LMs) effektiv für Offline RL nutzt. Unser Framework hebt vier entscheidende Komponenten hervor: (1) Die Initialisierung von Decision Transformers mit sequentiell vortrainierten LMs, (2) die Anwendung der LoRA-Fine-Tuning-Methode, im Gegensatz zum Full-Weight-Fine-Tuning, um das vortrainierte Wissen der LMs und das domänenspezifische Wissen effektiv zu kombinieren, (3) die Verwendung der nichtlinearen MLP-Transformation anstelle von linearen Projektionen, um Embeddings zu erzeugen, und (4) die Integration eines zusätzlichen Sprachvorhersageverlusts während des Fine-Tunings, um die LMs zu stabilisieren und ihre ursprünglichen Fähigkeiten in Bezug auf Sprache zu bewahren. Empirische Ergebnisse zeigen, dass LaMo in Aufgaben mit spärlichen Belohnungen state-of-the-art Leistung erzielt und die Lücke zwischen wertbasierten Offline-RL-Methoden und Decision Transformers in Aufgaben mit dichten Belohnungen schließt. Insbesondere demonstriert unsere Methode überlegene Leistung in Szenarien mit begrenzten Datenproben. Unsere Projektwebsite ist https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces Language Models for Motion Control (LaMo), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate LaMo achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is https://lamo2023.github.io
PDF181December 15, 2024