指示追従のための目標表現:制御のための半教師あり言語インターフェース
Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control
June 30, 2023
著者: Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine
cs.AI
要旨
私たちの目標は、ロボットが「タオルを電子レンジの横に置いて」のような自然言語の指示に従うことです。しかし、タスクのデモンストレーションと言語指示がラベル付けされた大量のデータを取得することは困難です。一方で、画像目標に応答するポリシーを取得するのははるかに容易です。なぜなら、どの自律的な試行やデモンストレーションも、その最終状態を目標として後からラベル付けできるからです。本研究では、少量の言語データのみを使用して、画像と目標条件付きポリシーと言語を連携させる手法を提案します。これまでの研究では、視覚-言語モデルを使用したり、言語-目標条件付きポリシーを共同で訓練することで進展がありましたが、いずれの方法も、人間による大幅な注釈なしに現実世界のロボットタスクに効果的にスケールすることはできませんでした。私たちの手法は、ラベル付けされたデータから埋め込みを学習することで、言語を目標画像ではなく、指示に対応する開始画像と目標画像の間の望ましい変化に整合させることで、現実世界で堅牢な性能を達成します。その後、この埋め込みに基づいてポリシーを訓練します。ポリシーはすべてのラベルなしデータから恩恵を受けますが、整合された埋め込みは、言語がポリシーを導くためのインターフェースを提供します。私たちは、さまざまなシーンでの多様な操作タスクにわたる指示追従を示し、ラベル付けされたデータ外の言語指示への一般化を示します。私たちのアプローチのビデオとコードは、ウェブサイトhttp://tiny.cc/grifで見つけることができます。
English
Our goal is for robots to follow natural language instructions like "put the
towel next to the microwave." But getting large amounts of labeled data, i.e.
data that contains demonstrations of tasks labeled with the language
instruction, is prohibitive. In contrast, obtaining policies that respond to
image goals is much easier, because any autonomous trial or demonstration can
be labeled in hindsight with its final state as the goal. In this work, we
contribute a method that taps into joint image- and goal- conditioned policies
with language using only a small amount of language data. Prior work has made
progress on this using vision-language models or by jointly training
language-goal-conditioned policies, but so far neither method has scaled
effectively to real-world robot tasks without significant human annotation. Our
method achieves robust performance in the real world by learning an embedding
from the labeled data that aligns language not to the goal image, but rather to
the desired change between the start and goal images that the instruction
corresponds to. We then train a policy on this embedding: the policy benefits
from all the unlabeled data, but the aligned embedding provides an interface
for language to steer the policy. We show instruction following across a
variety of manipulation tasks in different scenes, with generalization to
language instructions outside of the labeled data. Videos and code for our
approach can be found on our website: http://tiny.cc/grif .