Представления целей для выполнения инструкций: полуконтролируемый языковой интерфейс для управления
Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control
June 30, 2023
Авторы: Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine
cs.AI
Аннотация
Наша цель заключается в том, чтобы роботы могли выполнять инструкции на естественном языке, такие как «положи полотенце рядом с микроволновкой». Однако получение больших объемов размеченных данных, то есть данных, содержащих демонстрации задач, аннотированных языковыми инструкциями, является крайне затруднительным. В то же время получение политик, реагирующих на целевые изображения, значительно проще, поскольку любое автономное испытание или демонстрация могут быть задним числом помечены своим конечным состоянием как целью. В данной работе мы предлагаем метод, который использует совместные политики, обусловленные изображениями и целями, с применением языка, используя лишь небольшое количество языковых данных. Предыдущие исследования добились прогресса в этом направлении с помощью моделей, объединяющих зрение и язык, или путем совместного обучения политик, обусловленных языком и целями, но до сих пор ни один из этих методов не масштабировался эффективно для задач реального мира без значительных человеческих аннотаций. Наш метод достигает устойчивой производительности в реальном мире, обучая эмбеддинг на размеченных данных, который связывает язык не с целевым изображением, а с желаемым изменением между начальным и целевым изображениями, соответствующим инструкции. Затем мы обучаем политику на этом эмбеддинге: политика извлекает выгоду из всех немаркированных данных, а выровненный эмбеддинг предоставляет интерфейс для управления политикой с помощью языка. Мы демонстрируем выполнение инструкций в различных задачах манипуляции в разных сценах, с обобщением на языковые инструкции, выходящие за пределы размеченных данных. Видео и код нашего подхода можно найти на нашем сайте: http://tiny.cc/grif.
English
Our goal is for robots to follow natural language instructions like "put the
towel next to the microwave." But getting large amounts of labeled data, i.e.
data that contains demonstrations of tasks labeled with the language
instruction, is prohibitive. In contrast, obtaining policies that respond to
image goals is much easier, because any autonomous trial or demonstration can
be labeled in hindsight with its final state as the goal. In this work, we
contribute a method that taps into joint image- and goal- conditioned policies
with language using only a small amount of language data. Prior work has made
progress on this using vision-language models or by jointly training
language-goal-conditioned policies, but so far neither method has scaled
effectively to real-world robot tasks without significant human annotation. Our
method achieves robust performance in the real world by learning an embedding
from the labeled data that aligns language not to the goal image, but rather to
the desired change between the start and goal images that the instruction
corresponds to. We then train a policy on this embedding: the policy benefits
from all the unlabeled data, but the aligned embedding provides an interface
for language to steer the policy. We show instruction following across a
variety of manipulation tasks in different scenes, with generalization to
language instructions outside of the labeled data. Videos and code for our
approach can be found on our website: http://tiny.cc/grif .