Representaciones de Objetivos para el Seguimiento de Instrucciones: Una Interfaz de Lenguaje Semi-Supervisada para el Control

Resumen

Nuestro objetivo es que los robots sigan instrucciones en lenguaje natural como "pon la toalla junto al microondas". Sin embargo, obtener grandes cantidades de datos etiquetados, es decir, datos que contengan demostraciones de tareas etiquetadas con la instrucción en lenguaje natural, resulta prohibitivo. En contraste, obtener políticas que respondan a objetivos basados en imágenes es mucho más sencillo, ya que cualquier prueba autónoma o demostración puede etiquetarse a posteriori con su estado final como objetivo. En este trabajo, presentamos un método que aprovecha políticas condicionadas tanto por imágenes como por objetivos, utilizando solo una pequeña cantidad de datos lingüísticos. Trabajos previos han avanzado en este ámbito utilizando modelos de visión y lenguaje o entrenando conjuntamente políticas condicionadas por lenguaje y objetivos, pero hasta ahora ninguno de estos métodos ha escalado eficazmente a tareas robóticas del mundo real sin una anotación humana significativa. Nuestro método logra un rendimiento robusto en el mundo real al aprender un embedding a partir de los datos etiquetados que alinea el lenguaje no con la imagen objetivo, sino con el cambio deseado entre las imágenes de inicio y objetivo que corresponde a la instrucción. Luego entrenamos una política sobre este embedding: la política se beneficia de todos los datos no etiquetados, pero el embedding alineado proporciona una interfaz para que el lenguaje guíe la política. Demostramos la capacidad de seguir instrucciones en una variedad de tareas de manipulación en diferentes escenarios, con generalización a instrucciones lingüísticas fuera de los datos etiquetados. Los videos y el código de nuestro enfoque están disponibles en nuestro sitio web: http://tiny.cc/grif.

English

Our goal is for robots to follow natural language instructions like "put the towel next to the microwave." But getting large amounts of labeled data, i.e. data that contains demonstrations of tasks labeled with the language instruction, is prohibitive. In contrast, obtaining policies that respond to image goals is much easier, because any autonomous trial or demonstration can be labeled in hindsight with its final state as the goal. In this work, we contribute a method that taps into joint image- and goal- conditioned policies with language using only a small amount of language data. Prior work has made progress on this using vision-language models or by jointly training language-goal-conditioned policies, but so far neither method has scaled effectively to real-world robot tasks without significant human annotation. Our method achieves robust performance in the real world by learning an embedding from the labeled data that aligns language not to the goal image, but rather to the desired change between the start and goal images that the instruction corresponds to. We then train a policy on this embedding: the policy benefits from all the unlabeled data, but the aligned embedding provides an interface for language to steer the policy. We show instruction following across a variety of manipulation tasks in different scenes, with generalization to language instructions outside of the labeled data. Videos and code for our approach can be found on our website: http://tiny.cc/grif .

Representaciones de Objetivos para el Seguimiento de Instrucciones: Una Interfaz de Lenguaje Semi-Supervisada para el Control

Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control

Resumen

Support