Zielrepräsentationen für die Befolgung von Anweisungen: Eine halbüberwachte Sprachschnittstelle zur Steuerung
Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control
June 30, 2023
Autoren: Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine
cs.AI
Zusammenfassung
Unser Ziel ist es, dass Roboter natürliche Sprachbefehle wie „Lege das Handtuch neben die Mikrowelle“ befolgen können. Die Beschaffung großer Mengen an annotierten Daten, also Daten, die Demonstrationen von Aufgaben enthalten, die mit den Sprachbefehlen versehen sind, ist jedoch äußerst aufwendig. Im Gegensatz dazu ist es viel einfacher, Richtlinien zu erhalten, die auf Bildziele reagieren, da jeder autonome Versuch oder jede Demonstration im Nachhinein mit ihrem Endzustand als Ziel annotiert werden kann. In dieser Arbeit stellen wir eine Methode vor, die auf gemeinsam bild- und zielgesteuerte Richtlinien mit Sprache zugreift und dabei nur eine geringe Menge an Sprachdaten benötigt. Frühere Arbeiten haben Fortschritte in diesem Bereich erzielt, indem sie Vision-Sprache-Modelle verwendet oder gemeinsam sprach- und zielgesteuerte Richtlinien trainiert haben, aber bisher hat keine der Methoden effektiv auf reale Robotertasks ohne umfangreiche menschliche Annotation skaliert. Unsere Methode erreicht robuste Leistungen in der realen Welt, indem sie aus den annotierten Daten eine Einbettung lernt, die Sprache nicht auf das Zielbild, sondern auf die gewünschte Veränderung zwischen dem Start- und dem Zielbild ausrichtet, die der Befehl beschreibt. Anschließend trainieren wir eine Richtlinie auf dieser Einbettung: Die Richtlinie profitiert von allen nicht annotierten Daten, aber die ausgerichtete Einbettung bietet eine Schnittstelle, über die Sprache die Richtlinie steuern kann. Wir zeigen die Befolgung von Anweisungen über eine Vielzahl von Manipulationsaufgaben in verschiedenen Szenen hinweg, mit Generalisierung auf Sprachbefehle außerhalb der annotierten Daten. Videos und Code für unseren Ansatz finden Sie auf unserer Website: http://tiny.cc/grif.
English
Our goal is for robots to follow natural language instructions like "put the
towel next to the microwave." But getting large amounts of labeled data, i.e.
data that contains demonstrations of tasks labeled with the language
instruction, is prohibitive. In contrast, obtaining policies that respond to
image goals is much easier, because any autonomous trial or demonstration can
be labeled in hindsight with its final state as the goal. In this work, we
contribute a method that taps into joint image- and goal- conditioned policies
with language using only a small amount of language data. Prior work has made
progress on this using vision-language models or by jointly training
language-goal-conditioned policies, but so far neither method has scaled
effectively to real-world robot tasks without significant human annotation. Our
method achieves robust performance in the real world by learning an embedding
from the labeled data that aligns language not to the goal image, but rather to
the desired change between the start and goal images that the instruction
corresponds to. We then train a policy on this embedding: the policy benefits
from all the unlabeled data, but the aligned embedding provides an interface
for language to steer the policy. We show instruction following across a
variety of manipulation tasks in different scenes, with generalization to
language instructions outside of the labeled data. Videos and code for our
approach can be found on our website: http://tiny.cc/grif .