ChatPaper.aiChatPaper

Représentations d'objectifs pour le suivi d'instructions : Une interface langagière semi-supervisée pour le contrôle

Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control

June 30, 2023
papers.authors: Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine
cs.AI

papers.abstract

Notre objectif est que les robots puissent suivre des instructions en langage naturel telles que "place la serviette à côté du micro-ondes". Cependant, obtenir de grandes quantités de données annotées, c'est-à-dire des données contenant des démonstrations de tâches étiquetées avec l'instruction linguistique, est prohibitif. En revanche, l'obtention de politiques répondant à des objectifs visuels est beaucoup plus simple, car tout essai autonome ou démonstration peut être rétrospectivement étiqueté avec son état final comme objectif. Dans ce travail, nous proposons une méthode qui exploite des politiques conditionnées à la fois par l'image et par l'objectif, en utilisant uniquement une petite quantité de données linguistiques. Les travaux précédents ont progressé dans ce domaine en utilisant des modèles vision-langage ou en entraînant conjointement des politiques conditionnées par le langage et l'objectif, mais jusqu'à présent, aucune de ces méthodes n'a été efficacement mise à l'échelle pour des tâches robotiques réelles sans une annotation humaine importante. Notre méthode atteint une performance robuste dans le monde réel en apprenant un embedding à partir des données annotées qui aligne le langage non pas sur l'image de l'objectif, mais plutôt sur le changement souhaité entre les images de départ et d'arrivée auquel correspond l'instruction. Nous entraînons ensuite une politique sur cet embedding : la politique bénéficie de toutes les données non annotées, mais l'embedding aligné fournit une interface pour que le langage puisse guider la politique. Nous démontrons le suivi d'instructions à travers une variété de tâches de manipulation dans différentes scènes, avec une généralisation à des instructions linguistiques en dehors des données annotées. Les vidéos et le code de notre approche sont disponibles sur notre site web : http://tiny.cc/grif.
English
Our goal is for robots to follow natural language instructions like "put the towel next to the microwave." But getting large amounts of labeled data, i.e. data that contains demonstrations of tasks labeled with the language instruction, is prohibitive. In contrast, obtaining policies that respond to image goals is much easier, because any autonomous trial or demonstration can be labeled in hindsight with its final state as the goal. In this work, we contribute a method that taps into joint image- and goal- conditioned policies with language using only a small amount of language data. Prior work has made progress on this using vision-language models or by jointly training language-goal-conditioned policies, but so far neither method has scaled effectively to real-world robot tasks without significant human annotation. Our method achieves robust performance in the real world by learning an embedding from the labeled data that aligns language not to the goal image, but rather to the desired change between the start and goal images that the instruction corresponds to. We then train a policy on this embedding: the policy benefits from all the unlabeled data, but the aligned embedding provides an interface for language to steer the policy. We show instruction following across a variety of manipulation tasks in different scenes, with generalization to language instructions outside of the labeled data. Videos and code for our approach can be found on our website: http://tiny.cc/grif .
PDF60December 15, 2024