ビジョン・ランゲージモデルは強化学習におけるゼロショット報酬モデルとして機能する
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
October 19, 2023
著者: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
cs.AI
要旨
強化学習(RL)では、報酬関数を手動で指定する必要がありますが、これはしばしば実現不可能です。あるいは、大量の人間のフィードバックから報酬モデルを学習する方法もありますが、これは非常にコストがかかります。本研究では、よりサンプル効率の良い代替手段として、事前学習済みの視覚言語モデル(VLM)をゼロショット報酬モデル(RM)として使用し、自然言語を通じてタスクを指定する方法を検討します。我々は、VLMを報酬モデルとして使用するための自然で汎用的なアプローチを提案し、これをVLM-RMと呼びます。我々は、CLIPベースのVLM-RMを使用して、MuJoCoのヒューマノイドに、手動で指定された報酬関数なしに、跪く、開脚する、蓮華座を組むなどの複雑なタスクを学習させました。これらの各タスクについて、我々は最小限のプロンプトエンジニアリングで、望ましいタスクを説明する単一の文のテキストプロンプトを提供しました。訓練されたエージェントの動画は、https://sites.google.com/view/vlm-rm で公開しています。性能を向上させるために、第二の「ベースライン」プロンプトを提供し、目標とベースラインを区別するために不要なCLIP埋め込み空間の部分を投影除去することができます。さらに、VLM-RMには強いスケーリング効果があることがわかりました:より多くの計算リソースとデータで訓練された大規模なVLMは、より良い報酬モデルとなります。我々が遭遇したVLM-RMの失敗モードは、現在のVLMの既知の能力制限、例えば限られた空間推論能力や、VLMの分布から大きく外れた視覚的に非現実的な環境などに関連しています。VLMが十分に大規模であれば、VLM-RMは驚くほど頑健であることがわかりました。これは、将来のVLMが、幅広いRLアプリケーションにとってますます有用な報酬モデルになることを示唆しています。
English
Reinforcement learning (RL) requires either manually specifying a reward
function, which is often infeasible, or learning a reward model from a large
amount of human feedback, which is often very expensive. We study a more
sample-efficient alternative: using pretrained vision-language models (VLMs) as
zero-shot reward models (RMs) to specify tasks via natural language. We propose
a natural and general approach to using VLMs as reward models, which we call
VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn
complex tasks without a manually specified reward function, such as kneeling,
doing the splits, and sitting in a lotus position. For each of these tasks, we
only provide a single sentence text prompt describing the desired task with
minimal prompt engineering. We provide videos of the trained agents at:
https://sites.google.com/view/vlm-rm. We can improve performance by providing a
second ``baseline'' prompt and projecting out parts of the CLIP embedding space
irrelevant to distinguish between goal and baseline. Further, we find a strong
scaling effect for VLM-RMs: larger VLMs trained with more compute and data are
better reward models. The failure modes of VLM-RMs we encountered are all
related to known capability limitations of current VLMs, such as limited
spatial reasoning ability or visually unrealistic environments that are far
off-distribution for the VLM. We find that VLM-RMs are remarkably robust as
long as the VLM is large enough. This suggests that future VLMs will become
more and more useful reward models for a wide range of RL applications.