Представления целей для выполнения инструкций: полуконтролируемый языковой интерфейс для управления

Аннотация

Наша цель заключается в том, чтобы роботы могли выполнять инструкции на естественном языке, такие как «положи полотенце рядом с микроволновкой». Однако получение больших объемов размеченных данных, то есть данных, содержащих демонстрации задач, аннотированных языковыми инструкциями, является крайне затруднительным. В то же время получение политик, реагирующих на целевые изображения, значительно проще, поскольку любое автономное испытание или демонстрация могут быть задним числом помечены своим конечным состоянием как целью. В данной работе мы предлагаем метод, который использует совместные политики, обусловленные изображениями и целями, с применением языка, используя лишь небольшое количество языковых данных. Предыдущие исследования добились прогресса в этом направлении с помощью моделей, объединяющих зрение и язык, или путем совместного обучения политик, обусловленных языком и целями, но до сих пор ни один из этих методов не масштабировался эффективно для задач реального мира без значительных человеческих аннотаций. Наш метод достигает устойчивой производительности в реальном мире, обучая эмбеддинг на размеченных данных, который связывает язык не с целевым изображением, а с желаемым изменением между начальным и целевым изображениями, соответствующим инструкции. Затем мы обучаем политику на этом эмбеддинге: политика извлекает выгоду из всех немаркированных данных, а выровненный эмбеддинг предоставляет интерфейс для управления политикой с помощью языка. Мы демонстрируем выполнение инструкций в различных задачах манипуляции в разных сценах, с обобщением на языковые инструкции, выходящие за пределы размеченных данных. Видео и код нашего подхода можно найти на нашем сайте: http://tiny.cc/grif.

English

Our goal is for robots to follow natural language instructions like "put the towel next to the microwave." But getting large amounts of labeled data, i.e. data that contains demonstrations of tasks labeled with the language instruction, is prohibitive. In contrast, obtaining policies that respond to image goals is much easier, because any autonomous trial or demonstration can be labeled in hindsight with its final state as the goal. In this work, we contribute a method that taps into joint image- and goal- conditioned policies with language using only a small amount of language data. Prior work has made progress on this using vision-language models or by jointly training language-goal-conditioned policies, but so far neither method has scaled effectively to real-world robot tasks without significant human annotation. Our method achieves robust performance in the real world by learning an embedding from the labeled data that aligns language not to the goal image, but rather to the desired change between the start and goal images that the instruction corresponds to. We then train a policy on this embedding: the policy benefits from all the unlabeled data, but the aligned embedding provides an interface for language to steer the policy. We show instruction following across a variety of manipulation tasks in different scenes, with generalization to language instructions outside of the labeled data. Videos and code for our approach can be found on our website: http://tiny.cc/grif .

Представления целей для выполнения инструкций: полуконтролируемый языковой интерфейс для управления

Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control

Аннотация

Support