Eureka: 大規模言語モデルのコーディングによる人間レベルの報酬設計
Eureka: Human-Level Reward Design via Coding Large Language Models
October 19, 2023
著者: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI
要旨
大規模言語モデル(LLMs)は、逐次的意思決定タスクにおける高レベルの意味論的プランナーとして優れた性能を発揮してきた。しかし、複雑な低レベルの操作タスク(例えば、巧みなペン回し)を学習させるための活用は、未解決の問題として残されている。我々はこの根本的なギャップを埋め、LLMsを活用した人間レベルの報酬設計アルゴリズム「Eureka」を提案する。Eurekaは、GPT-4などの最先端LLMsが持つ驚異的なゼロショット生成、コード記述、および文脈内改善能力を活用し、報酬コードに対する進化的最適化を実行する。これにより生成された報酬は、強化学習を通じて複雑なスキルの獲得に利用できる。タスク固有のプロンプトや事前定義された報酬テンプレートを一切必要とせず、Eurekaは人間の専門家が設計した報酬を上回る報酬関数を生成する。10種類の異なるロボット形態を含む29のオープンソースRL環境において、Eurekaは83%のタスクで人間の専門家を上回り、平均52%の正規化改善をもたらした。Eurekaの汎用性は、人間のフィードバックからの強化学習(RLHF)に対する新しい勾配なし文脈内学習アプローチも可能にし、モデルの更新なしに人間の入力を容易に取り入れて生成される報酬の品質と安全性を向上させる。最後に、カリキュラム学習の設定でEurekaの報酬を使用することで、シミュレーション環境下で初めて、高速でペンを円を描くように巧みに操作するShadow Handのペン回しトリックを実証した。
English
Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.