Representaciones de Objetivos para el Seguimiento de Instrucciones: Una Interfaz de Lenguaje Semi-Supervisada para el Control
Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control
June 30, 2023
Autores: Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine
cs.AI
Resumen
Nuestro objetivo es que los robots sigan instrucciones en lenguaje natural como "pon la toalla junto al microondas". Sin embargo, obtener grandes cantidades de datos etiquetados, es decir, datos que contengan demostraciones de tareas etiquetadas con la instrucción en lenguaje natural, resulta prohibitivo. En contraste, obtener políticas que respondan a objetivos basados en imágenes es mucho más sencillo, ya que cualquier prueba autónoma o demostración puede etiquetarse a posteriori con su estado final como objetivo. En este trabajo, presentamos un método que aprovecha políticas condicionadas tanto por imágenes como por objetivos, utilizando solo una pequeña cantidad de datos lingüísticos. Trabajos previos han avanzado en este ámbito utilizando modelos de visión y lenguaje o entrenando conjuntamente políticas condicionadas por lenguaje y objetivos, pero hasta ahora ninguno de estos métodos ha escalado eficazmente a tareas robóticas del mundo real sin una anotación humana significativa. Nuestro método logra un rendimiento robusto en el mundo real al aprender un embedding a partir de los datos etiquetados que alinea el lenguaje no con la imagen objetivo, sino con el cambio deseado entre las imágenes de inicio y objetivo que corresponde a la instrucción. Luego entrenamos una política sobre este embedding: la política se beneficia de todos los datos no etiquetados, pero el embedding alineado proporciona una interfaz para que el lenguaje guíe la política. Demostramos la capacidad de seguir instrucciones en una variedad de tareas de manipulación en diferentes escenarios, con generalización a instrucciones lingüísticas fuera de los datos etiquetados. Los videos y el código de nuestro enfoque están disponibles en nuestro sitio web: http://tiny.cc/grif.
English
Our goal is for robots to follow natural language instructions like "put the
towel next to the microwave." But getting large amounts of labeled data, i.e.
data that contains demonstrations of tasks labeled with the language
instruction, is prohibitive. In contrast, obtaining policies that respond to
image goals is much easier, because any autonomous trial or demonstration can
be labeled in hindsight with its final state as the goal. In this work, we
contribute a method that taps into joint image- and goal- conditioned policies
with language using only a small amount of language data. Prior work has made
progress on this using vision-language models or by jointly training
language-goal-conditioned policies, but so far neither method has scaled
effectively to real-world robot tasks without significant human annotation. Our
method achieves robust performance in the real world by learning an embedding
from the labeled data that aligns language not to the goal image, but rather to
the desired change between the start and goal images that the instruction
corresponds to. We then train a policy on this embedding: the policy benefits
from all the unlabeled data, but the aligned embedding provides an interface
for language to steer the policy. We show instruction following across a
variety of manipulation tasks in different scenes, with generalization to
language instructions outside of the labeled data. Videos and code for our
approach can be found on our website: http://tiny.cc/grif .