ChatPaper.aiChatPaper

事前学習済み言語モデルの力を活用したオフライン強化学習

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

October 31, 2023
著者: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI

要旨

オフライン強化学習(RL)は、事前に収集されたデータセットを使用して最適に近いポリシーを見つけることを目的としています。現実世界のシナリオでは、データ収集がコスト高くリスクを伴うため、ドメイン内のデータが限られている場合、オフラインRLは特に困難になります。大規模言語モデル(LLM)とそのFew-shot学習能力の最近の進展を踏まえ、本論文では、事前学習済み言語モデル(LM)をオフラインRLに効果的に活用するためのDecision Transformersに基づく汎用フレームワークであるLanguage Models for Motion Control(LaMo)を紹介します。我々のフレームワークは、以下の4つの重要なコンポーネントを強調しています:(1)逐次事前学習されたLMでDecision Transformersを初期化すること、(2)全重みのファインチューニングとは対照的に、LoRAファインチューニング手法を採用し、LMからの事前学習済み知識とドメイン内知識を効果的に組み合わせること、(3)線形射影ではなく非線形MLP変換を使用して埋め込みを生成すること、(4)ファインチューニング中に補助的な言語予測損失を統合し、LMを安定化させ、言語に関する元の能力を保持することです。実験結果は、LaMoがスパース報酬タスクにおいて最先端の性能を達成し、密報酬タスクにおける価値ベースのオフラインRL手法とDecision Transformersのギャップを埋めることを示しています。特に、我々の手法は、データサンプルが限られたシナリオにおいて優れた性能を発揮します。プロジェクトのウェブサイトはhttps://lamo2023.github.ioです。
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces Language Models for Motion Control (LaMo), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate LaMo achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is https://lamo2023.github.io
PDF181December 15, 2024