RL Zero: 監督なしでのゼロショット言語から行動へ
RL Zero: Zero-Shot Language to Behaviors without any Supervision
December 7, 2024
著者: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI
要旨
報酬は、強化学習のタスクを指定するための解釈できない方法として残ります。人間はしばしば任意の報酬関数の最適な振る舞いを予測できないため、報酬の設計が不十分であり、報酬のハッキングが発生します。言語は、意図をエージェントに伝え、報酬設計をバイパスする魅力的な手段を提供しますが、これまでの取り組みはコストがかかりスケーラブルでないラベリング作業によって制約されてきました。本研究では、完全に教師なしの方法を提案し、言語指示をゼロショットでポリシーを取得するために基盤となる手法を示します。エージェントは、タスクの言語説明に対応する観測系列を想像し、想像された系列を対象ドメインに射影し、ポリシーに基盤を置くという形を取る解決策を提示します。ビデオ言語モデルにより、インターネット規模のビデオテキストマッピングから学習したタスクの知識を活用したタスク説明を想像することが可能となります。課題は、これらの生成物をポリシーに基盤を置くことです。本研究では、教師なしの強化学習エージェントの実際の観測に想像された系列を最初に基盤を置き、RLエージェントが基盤となった観測を模倣するための閉形式解を使用することで、ゼロショットの言語から振る舞いポリシーを達成できることを示します。私たちの知る限り、当社の手法RLZeroは、シミュレートされたドメインのさまざまなタスクで、何らの監督もなしにゼロショットの言語から振る舞いを生成する能力を示す最初のものです。さらに、RLZeroがYouTubeなどからスクレイピングされたクロスエンボディードビデオからもゼロショットでポリシーを生成できることを示します。
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement
Learning, as humans are often unable to predict the optimal behavior of any
given reward function, leading to poor reward design and reward hacking.
Language presents an appealing way to communicate intent to agents and bypass
reward design, but prior efforts to do so have been limited by costly and
unscalable labeling efforts. In this work, we propose a method for a completely
unsupervised alternative to grounding language instructions in a zero-shot
manner to obtain policies. We present a solution that takes the form of
imagine, project, and imitate: The agent imagines the observation sequence
corresponding to the language description of a task, projects the imagined
sequence to our target domain, and grounds it to a policy. Video-language
models allow us to imagine task descriptions that leverage knowledge of tasks
learned from internet-scale video-text mappings. The challenge remains to
ground these generations to a policy. In this work, we show that we can achieve
a zero-shot language-to-behavior policy by first grounding the imagined
sequences in real observations of an unsupervised RL agent and using a
closed-form solution to imitation learning that allows the RL agent to mimic
the grounded observations. Our method, RLZero, is the first to our knowledge to
show zero-shot language to behavior generation abilities without any
supervision on a variety of tasks on simulated domains. We further show that
RLZero can also generate policies zero-shot from cross-embodied videos such as
those scraped from YouTube.Summary
AI-Generated Summary